Indexes - Create Or Update
Skapar ett nytt sökindex eller uppdaterar ett index om det redan finns.
PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01
URI-parametrar
| Name | I | Obligatorisk | Typ | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Slutpunkts-URL:en för söktjänsten. |
|
index
|
path | True |
string |
Definitionen av indexet som ska skapas eller uppdateras. |
|
api-version
|
query | True |
string |
Klient-API-version. |
|
allow
|
query |
boolean |
Gör att nya analysverktyg, tokeniserare, tokenfilter eller char-filter kan läggas till i ett index genom att ta indexet offline i minst några sekunder. Detta gör att indexerings- och frågebegäranden tillfälligt misslyckas. Indexets prestanda och skrivtillgänglighet kan försämras i flera minuter efter att indexet har uppdaterats, eller längre för mycket stora index. |
Begärandehuvud
| Name | Obligatorisk | Typ | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Spårnings-ID:t som skickades med begäran för att hjälpa till med felsökning. |
|
| If-Match |
string |
Definierar villkoret If-Match. Åtgärden utförs endast om ETag på servern matchar det här värdet. |
|
| If-None-Match |
string |
Definierar villkoret Om-None-Match. Åtgärden utförs endast om ETag på servern inte matchar det här värdet. |
|
| Prefer | True |
string |
För HTTP PUT-begäranden instruerar tjänsten att returnera den skapade/uppdaterade resursen när den lyckas. |
Begärandetext
| Name | Obligatorisk | Typ | Description |
|---|---|---|---|
| fields | True |
Fälten i indexet. |
|
| name | True |
string |
Namnet på indexet. |
| @odata.etag |
string |
ETag för indexet. |
|
| analyzers | LexicalAnalyzer[]: |
Analysverktygen för indexet. |
|
| charFilters | CharFilter[]: |
Teckenfiltren för indexet. |
|
| corsOptions |
Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet. |
||
| defaultScoringProfile |
string |
Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf). |
|
| description |
string |
En beskrivning av indexet. |
|
| encryptionKey |
En beskrivning av en krypteringsnyckel som du skapar i Azure 密钥保管库. Den här nyckeln används för att ge ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data kommer de alltid att förbli krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina uppgifter kommer inte att påverkas. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare. |
||
| normalizers | LexicalNormalizer[]: |
Normaliserarna för indexet. |
|
| scoringProfiles |
Bedömningsprofilerna för indexet. |
||
| semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
||
| similarity | Similarity: |
Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när indexet skapas och kan inte ändras på befintliga index. Om värdet är null används algoritmen ClassicSimilarity. |
|
| suggesters |
Förslagsställarna för indexet. |
||
| tokenFilters |
TokenFilter[]:
|
Token filtreras efter indexet. |
|
| tokenizers | LexicalTokenizer[]: |
Tokeniserarna för indexet. |
|
| vectorSearch |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
Svar
| Name | Typ | Description |
|---|---|---|
| 200 OK | ||
| 201 Created | ||
| Other Status Codes |
Felsvar. |
Exempel
SearchServiceCreateOrUpdateIndex
Exempelbegäran
PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Exempelsvar
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definitioner
| Name | Description |
|---|---|
|
Ascii |
Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Azure |
Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault. |
|
Azure |
Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen. |
|
Azure |
Namnet på Azure Open AI-modellen som ska anropas. |
|
Azure |
Anger parametrarna för att ansluta till Azure OpenAI-resursen. |
|
Azure |
Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng. |
|
Binary |
Innehåller konfigurationsalternativ som är specifika för komprimeringsmetoden för binär kvantisering som används vid indexering och frågor. |
| BM25Similarity |
Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som inkluderar längdnormalisering (styrs av parametern "b") samt termfrekvensmättnad (styrs av parametern "k1"). |
|
Char |
Definierar namnen på alla teckenfilter som stöds av sökmotorn. |
|
Cjk |
Bildar bigram med CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Cjk |
Skript som kan ignoreras av CjkBigramTokenFilter. |
|
Classic |
Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna. |
|
Classic |
Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta dokument på europeiska språk. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Common |
Skapa bigram för ofta förekommande termer vid indexering. Enskilda termer indexeras också fortfarande, med bigram överlappande. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Cors |
Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index. |
|
Custom |
Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokeniserare och ett eller flera filter. Tokeniseraren ansvarar för att dela upp text i token och filtren för att ändra token som genereras av tokeniseraren. |
|
Custom |
Gör att du kan konfigurera normalisering för filtrerbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras. |
|
Dictionary |
Bryter ner sammansatta ord som finns i många germanska språk. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Distance |
Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats. |
|
Distance |
Tillhandahåller parametervärden till en funktion för avståndsbedömning. |
|
Edge |
Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Edge |
Anger vilken sida av indata ett n-gram ska genereras från. |
|
Edge |
Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Edge |
Tokeniserar indata från en kant till n-gram av den angivna storleken. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Elision |
Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Error |
Ytterligare information om resurshanteringsfelet. |
|
Error |
Felinformationen. |
|
Error |
Felsvar |
|
Exhaustive |
Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen. |
|
Exhaustive |
Innehåller konfigurationsalternativ som är specifika för den omfattande KNN-algoritmen som används vid frågor, som utför brute force-sökning över hela vektorindexet. |
|
Freshness |
Definierar en funktion som ökar poängen baserat på värdet i ett datum/tid-fält. |
|
Freshness |
Tillhandahåller parametervärden till en funktion för färskhetsbedömning. |
|
Hnsw |
Innehåller de parametrar som är specifika för HNSW-algoritmen. |
|
Hnsw |
Innehåller konfigurationsalternativ som är specifika för algoritmen HNSW för ungefärliga närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar avvägning mellan sökhastighet och noggrannhet. |
|
Input |
Mappning av inmatningsfält för en färdighet. |
|
Keep |
Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Keyword |
Markerar termer som nyckelord. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Keyword |
Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Keyword |
Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Length |
Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Lexical |
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn. |
|
Lexical |
Definierar namnen på alla textnormaliserare som stöds av sökmotorn. |
|
Lexical |
Definierar namnen på alla tokeniserare som stöds av sökmotorn. |
|
Limit |
Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Lucene |
Standard Apache Lucene-analysator; Består av standardtokeniserare, filter med gemener och stoppfilter. |
|
Lucene |
Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Lucene |
Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Magnitude |
Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält. |
|
Magnitude |
Tillhandahåller parametervärden till en storleksbedömningsfunktion. |
|
Mapping |
Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en given tidpunkt vinner). Ersättning får vara den tomma strängen. Det här teckenfiltret implementeras med hjälp av Apache Lucene. |
|
Microsoft |
Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras grundformer. |
|
Microsoft |
Delar upp text med hjälp av språkspecifika regler. |
|
Microsoft |
Visar en lista över de språk som stöds av Microsofts tokenisering för språkstamsigenkänning. |
|
Microsoft |
Visar en lista över de språk som stöds av Microsofts språktokeniserare. |
|
NGram |
Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
NGram |
Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
NGram |
Tokeniserar indata i n-gram av den angivna storleken/storlekarna. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Output |
Mappning av utdatafält för en färdighet. |
|
Path |
Tokenizer för sökvägsliknande hierarkier. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Pattern |
Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Den här analysatorn implementeras med hjälp av Apache Lucene. |
|
Pattern |
Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Pattern |
Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här teckenfiltret implementeras med hjälp av Apache Lucene. |
|
Pattern |
Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Pattern |
Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Phonetic |
Identifierar vilken typ av fonetisk kodare som ska användas med en PhoneticTokenFilter. |
|
Phonetic |
Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Prioritized |
Beskriver fälten titel, innehåll och nyckelord som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar. |
|
Ranking |
Representerar poäng som ska användas för sorteringsordning för dokument. |
|
Regex |
Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysatorn och mönstertokeniseraren. |
|
Rescoring |
Innehåller alternativ för ompoängning. |
|
Scalar |
Innehåller de parametrar som är specifika för skalär kvantisering. |
|
Scalar |
Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetoden som används vid indexering och frågor. |
|
Scoring |
Definierar den aggregeringsfunktion som används för att kombinera resultaten av alla bedömningsfunktioner i en bedömningsprofil. |
|
Scoring |
Definierar den funktion som används för att interpolera poängökning i en rad dokument. |
|
Scoring |
Definierar parametrar för ett sökindex som påverkar poängsättningen i sökfrågor. |
|
Search |
Representerar ett fält i en indexdefinition, som beskriver namnet, datatypen och sökfunktionen för ett fält. |
|
Search |
Definierar datatypen för ett fält i ett sökindex. |
|
Search |
Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index. |
|
Search |
Rensar identitetsegenskapen för en datakälla. |
|
Search |
Anger identiteten för en datakälla som ska användas. |
|
Search |
En kundhanterad krypteringsnyckel i Azure 密钥保管库. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar. |
|
Semantic |
Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner. |
|
Semantic |
Ett fält som används som en del av den semantiska konfigurationen. |
|
Semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
|
Shingle |
Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Snowball |
Ett filter som stammar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Snowball |
Det språk som ska användas för ett Snowball-tokenfilter. |
|
Stemmer |
Ger möjlighet att åsidosätta andra ordstamsfilter med anpassad ordlistebaserad ordstamsigenkänning. Alla termer som härstammar från ordböcker kommer att markeras som nyckelord så att de inte kommer att hejdas av stemmers längre ner i kedjan. Måste placeras före eventuella stämplingsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Stemmer |
Språkspecifikt ordstamsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Stemmer |
Det språk som ska användas för ett stemmer-tokenfilter. |
|
Stop |
Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Den här analysatorn implementeras med hjälp av Apache Lucene. |
|
Stopwords |
Identifierar en fördefinierad lista med språkspecifika stoppord. |
|
Stopwords |
Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
| Suggester |
Definierar hur Suggest-API:et ska gälla för en grupp fält i indexet. |
|
Suggester |
Ett värde som anger förslagsställarens funktioner. |
|
Synonym |
Matchar synonymer med ett eller flera ord i en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Tag |
Definierar en funktion som ökar poängen för dokument med strängvärden som matchar en viss lista med taggar. |
|
Tag |
Tillhandahåller parametervärden till en taggbedömningsfunktion. |
|
Text |
Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor. |
|
Token |
Representerar klasser av tecken som ett tokenfilter kan användas på. |
|
Token |
Definierar namnen på alla tokenfilter som stöds av sökmotorn. |
|
Truncate |
Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Uax |
Tokeniserar webbadresser och e-postmeddelanden som en token. Den här tokeniseraren implementeras med hjälp av Apache Lucene. |
|
Unique |
Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
|
Vector |
Kodningsformatet för tolkning av vektorfältinnehåll. |
|
Vector |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
|
Vector |
Algoritmen som används för indexering och frågor. |
|
Vector |
Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på. |
|
Vector |
Den komprimeringsmetod som används för indexering och frågor. |
|
Vector |
Lagringsmetoden för de ursprungliga vektorerna med full precision som används för ompoängning och interna indexåtgärder. |
|
Vector |
Den kvantiserade datatypen för komprimerade vektorvärden. |
|
Vector |
Definierar en kombination av konfigurationer som ska användas med vektorsökning. |
|
Vector |
Den vektoriseringsmetod som ska användas under frågetiden. |
|
Web |
Anger egenskaperna för anslutning till en användardefinierad vektoriserare. |
|
Web |
Anger en användardefinierad vektoriserare för att generera vektorinbäddningen av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning. |
|
Word |
Delar upp ord i underord och utför valfria omvandlingar på underordsgrupper. Det här tokenfiltret implementeras med hjälp av Apache Lucene. |
AsciiFoldingTokenFilter
Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| preserveOriginal |
boolean |
False |
Ett värde som anger om den ursprungliga token kommer att behållas. Standardvärdet är false. |
AzureActiveDirectoryApplicationCredentials
Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.
| Name | Typ | Description |
|---|---|---|
| applicationId |
string |
Ett AAD-program-ID som har beviljats de åtkomstbehörigheter som krävs för att Azure Key Vault ska användas när du krypterar dina vilande data. Program-ID:t ska inte förväxlas med objekt-ID:t för ditt AAD-program. |
| applicationSecret |
string |
Autentiseringsnyckeln för det angivna AAD-programmet. |
AzureOpenAIEmbeddingSkill
Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av färdighet. |
| apiKey |
string |
API-nyckel för den angivna Azure OpenAI-resursen. |
| authIdentity | SearchIndexerDataIdentity: |
Den användartilldelade hanterade identiteten som används för utgående anslutningar. |
| context |
string |
Representerar den nivå på vilken åtgärder utförs, till exempel dokumentets rot eller dokumentinnehåll (till exempel /document eller /document/content). Standardvärdet är /document. |
| deploymentId |
string |
ID för Azure OpenAI-modelldistributionen på den angivna resursen. |
| description |
string |
Beskrivningen av färdigheten som beskriver indata, utdata och användning av färdigheten. |
| dimensions |
integer (int32) |
Antalet dimensioner som resulterande inbäddningar av utdata ska ha. Stöds endast i text-embedding-3 och senare modeller. |
| inputs |
Indata för färdigheterna kan vara en kolumn i källdatauppsättningen eller utdata från en överordnad färdighet. |
|
| modelName |
Namnet på inbäddningsmodellen som distribueras på den angivna deploymentId-sökvägen. |
|
| name |
string |
Namnet på färdigheten som unikt identifierar den i kompetensuppsättningen. En färdighet utan definierat namn får ett standardnamn för dess 1-baserade index i kompetensmatrisen, med prefixet "#". |
| outputs |
Utdata från en färdighet är antingen ett fält i ett sökindex eller ett värde som kan användas som indata av en annan färdighet. |
|
| resourceUri |
string (uri) |
Resurs-URI:n för Azure OpenAI-resursen. |
AzureOpenAIModelName
Namnet på Azure Open AI-modellen som ska anropas.
| Värde | Description |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Anger parametrarna för att ansluta till Azure OpenAI-resursen.
| Name | Typ | Description |
|---|---|---|
| apiKey |
string |
API-nyckel för den angivna Azure OpenAI-resursen. |
| authIdentity | SearchIndexerDataIdentity: |
Den användartilldelade hanterade identiteten som används för utgående anslutningar. |
| deploymentId |
string |
ID för Azure OpenAI-modelldistributionen på den angivna resursen. |
| modelName |
Namnet på inbäddningsmodellen som distribueras på den angivna deploymentId-sökvägen. |
|
| resourceUri |
string (uri) |
Resurs-URI:n för Azure OpenAI-resursen. |
AzureOpenAIVectorizer
Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.
| Name | Typ | Description |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Innehåller de parametrar som är specifika för Azure OpenAI-inbäddningsvektorisering. |
| kind |
string:
azure |
Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med just den här vektoriseringsmetoden. |
BinaryQuantizationVectorSearchCompressionConfiguration
Innehåller konfigurationsalternativ som är specifika för komprimeringsmetoden för binär kvantisering som används vid indexering och frågor.
| Name | Typ | Description |
|---|---|---|
| kind |
string:
binary |
Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med den här konfigurationen. |
| rescoringOptions |
Innehåller alternativ för ompoängning. |
|
| truncationDimension |
integer (int32) |
Antalet dimensioner som vektorerna ska trunkeras till. Genom att trunkera vektorerna minskar storleken på vektorerna och mängden data som behöver överföras under sökningen. Detta kan spara lagringskostnader och förbättra sökprestanda på bekostnad av träffsäkerhet. Den bör endast användas för inbäddningar som tränats med Matrjosjka Representation Learning (MRL), till exempel OpenAI text-embedding-3-large (small). Standardvärdet är null, vilket innebär att det inte finns någon trunkering. |
BM25Similarity
Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som inkluderar längdnormalisering (styrs av parametern "b") samt termfrekvensmättnad (styrs av parametern "k1").
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Den här egenskapen styr hur längden på ett dokument påverkar relevanspoängen. Som standard används värdet 0,75. Värdet 0,0 innebär att ingen längdnormalisering tillämpas, medan värdet 1,0 innebär att poängen är helt normaliserad av dokumentets längd. |
| k1 |
number (double) |
Den här egenskapen styr skalningsfunktionen mellan termfrekvensen för varje matchande termer och den slutliga relevanspoängen för ett dokumentfrågepar. Som standard används värdet 1,2. Värdet 0,0 innebär att poängen inte skalas med en ökning av termfrekvensen. |
CharFilterName
Definierar namnen på alla teckenfilter som stöds av sökmotorn.
| Värde | Description |
|---|---|
| html_strip |
Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Bildar bigram med CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| ignoreScripts |
Skripten som ska ignoreras. |
||
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| outputUnigrams |
boolean |
False |
Ett värde som anger om både unigram och bigram ska matas ut (om det är sant) eller bara bigram (om det är falskt). Standardvärdet är false. |
CjkBigramTokenFilterScripts
Skript som kan ignoreras av CjkBigramTokenFilter.
| Värde | Description |
|---|---|
| han |
Ignorera Han-skript när du skapar bigram av CJK-termer. |
| hiragana |
Ignorera hiragana-skrift när du bildar bigram av CJK-termer. |
| katakana |
Ignorera Katakana-skrift när du skapar bigram av CJK-termer. |
| hangul |
Ignorera Hangul-skrift när du bildar bigram av CJK-termer. |
ClassicSimilarity
Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta dokument på europeiska språk. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
CommonGramTokenFilter
Skapa bigram för ofta förekommande termer vid indexering. Enskilda termer indexeras också fortfarande, med bigram överlappande. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| commonWords |
string[] |
Uppsättningen med vanliga ord. |
|
| ignoreCase |
boolean |
False |
Ett värde som anger om matchning av vanliga ord inte är skiftlägeskänsligt. Standardvärdet är false. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| queryMode |
boolean |
False |
Ett värde som anger om tokenfiltret är i frågeläge. I frågeläge genererar tokenfiltret bigram och tar sedan bort vanliga ord och enskilda termer följt av ett vanligt ord. Standardvärdet är false. |
CorsOptions
Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index.
| Name | Typ | Description |
|---|---|---|
| allowedOrigins |
string[] |
Listan över ursprung som JavaScript-koden ska beviljas åtkomst till ditt index från. Kan innehålla en lista över värdar i formatet {protocol}://{fully-qualified-domain-name}[:{port#}], eller en enda "*" för att tillåta alla ursprung (rekommenderas inte). |
| maxAgeInSeconds |
integer (int64) |
Den varaktighet under vilken webbläsare ska cachelagra CORS-preflight-svar. Standardvärdet är 5 minuter. |
CustomAnalyzer
Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokeniserare och ett eller flera filter. Tokeniseraren ansvarar för att dela upp text i token och filtren för att ändra token som genereras av tokeniseraren.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysator. |
| charFilters |
En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas av tokeniseraren. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas. |
|
| name |
string |
Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
| tokenFilters |
En lista över tokenfilter som används för att filtrera bort eller ändra de token som genereras av en tokeniserare. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas. |
|
| tokenizer |
Namnet på tokeniseraren som ska användas för att dela upp kontinuerlig text i en sekvens med token, till exempel att dela upp en mening i ord. |
CustomNormalizer
Gör att du kan konfigurera normalisering för filtrerbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av normaliserare. |
| charFilters |
En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas. |
|
| name |
string |
Namnet på normaliseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. Det får inte sluta med ".microsoft" eller ".lucene" och inte heller heta "asciifolding", "standard", "gemener", "versaler" eller "elision". |
| tokenFilters |
En lista över tokenfilter som används för att filtrera bort eller ändra indatatoken. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas. |
DictionaryDecompounderTokenFilter
Bryter ner sammansatta ord som finns i många germanska språk. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Den maximala storleken för underord. Endast underord som är kortare än detta matas ut. Standardvärdet är 15. Maxvärdet är 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Minsta storlek på underord. Endast underord som är längre än detta matas ut. Standardvärdet är 2. Maxvärdet är 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Minsta ordstorlek. Endast ord som är längre än så bearbetas. Standardvärdet är 5. Maxvärdet är 300. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| onlyLongestMatch |
boolean |
False |
Ett värde som anger om du bara vill lägga till det längsta matchande underordet i utdata. Standardvärdet är false. |
| wordList |
string[] |
Listan med ord som ska matchas mot. |
DistanceScoringFunction
Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0. |
| distance |
Parametervärden för funktionen för avståndspoängsättning. |
|
| fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
| interpolation |
Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär". |
|
| type |
string:
distance |
Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener. |
DistanceScoringParameters
Tillhandahåller parametervärden till en funktion för avståndsbedömning.
| Name | Typ | Description |
|---|---|---|
| boostingDistance |
number (double) |
Avståndet i kilometer från referensplatsen där förstärkningsområdet slutar. |
| referencePointParameter |
string |
Namnet på parametern som skickas i sökfrågor för att ange referensplatsen. |
EdgeNGramTokenFilter
Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| maxGram |
integer (int32) |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. |
| minGram |
integer (int32) |
1 |
Minsta längd på n-gram. Standard är 1. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| side | front |
Anger vilken sida av indata n-grammet ska genereras från. Standard är "front". |
EdgeNGramTokenFilterSide
Anger vilken sida av indata ett n-gram ska genereras från.
| Värde | Description |
|---|---|
| front |
Anger att n-grammet ska genereras från indatans framsida. |
| back |
Anger att n-grammet ska genereras från baksidan av indata. |
EdgeNGramTokenFilterV2
Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| side | front |
Anger vilken sida av indata n-grammet ska genereras från. Standard är "front". |
EdgeNGramTokenizer
Tokeniserar indata från en kant till n-gram av den angivna storleken. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| tokenChars |
Teckenklasser som ska behållas i tokens. |
ElisionTokenFilter
Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
| articles |
string[] |
Den uppsättning artiklar som ska tas bort. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
ErrorAdditionalInfo
Ytterligare information om resurshanteringsfelet.
| Name | Typ | Description |
|---|---|---|
| info |
object |
Ytterligare information. |
| type |
string |
Ytterligare informationstyp. |
ErrorDetail
Felinformationen.
| Name | Typ | Description |
|---|---|---|
| additionalInfo |
Ytterligare information om felet. |
|
| code |
string |
Felkoden. |
| details |
Felinformationen. |
|
| message |
string |
Felmeddelandet. |
| target |
string |
Felmålet. |
ErrorResponse
Felsvar
| Name | Typ | Description |
|---|---|---|
| error |
Felobjektet. |
ExhaustiveKnnParameters
Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen.
| Name | Typ | Description |
|---|---|---|
| metric |
Likhetsmåttet som ska användas för vektorjämförelser. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Innehåller konfigurationsalternativ som är specifika för den omfattande KNN-algoritmen som används vid frågor, som utför brute force-sökning över hela vektorindexet.
| Name | Typ | Description |
|---|---|---|
| exhaustiveKnnParameters |
Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen. |
|
| kind |
string:
exhaustive |
Namnet på den typ av algoritm som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med den här konfigurationen. |
FreshnessScoringFunction
Definierar en funktion som ökar poängen baserat på värdet i ett datum/tid-fält.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0. |
| fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
| freshness |
Parametervärden för funktionen för färskhetsbedömning. |
|
| interpolation |
Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär". |
|
| type |
string:
freshness |
Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener. |
FreshnessScoringParameters
Tillhandahåller parametervärden till en funktion för färskhetsbedömning.
| Name | Typ | Description |
|---|---|---|
| boostingDuration |
string (duration) |
Förfalloperioden efter vilken förstärkningen stoppas för ett visst dokument. |
HnswParameters
Innehåller de parametrar som är specifika för HNSW-algoritmen.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Storleken på den dynamiska listan som innehåller de närmaste grannarna, som används under indexeringstiden. Om du ökar den här parametern kan indexkvaliteten förbättras på bekostnad av ökad indexeringstid. Vid en viss punkt leder en ökning av denna parameter till minskande avkastning. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Storleken på den dynamiska listan som innehåller de närmaste grannarna, som används under söktiden. Om du ökar den här parametern kan sökresultaten förbättras på bekostnad av långsammare sökning. Vid en viss punkt leder en ökning av denna parameter till minskande avkastning. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Antalet dubbelriktade länkar som skapas för varje nytt element under konstruktionen. Att öka det här parametervärdet kan förbättra träffsäkerheten och minska hämtningstiderna för datauppsättningar med hög inneboende dimensionalitet på bekostnad av ökad minnesförbrukning och längre indexeringstid. |
| metric |
Likhetsmåttet som ska användas för vektorjämförelser. |
HnswVectorSearchAlgorithmConfiguration
Innehåller konfigurationsalternativ som är specifika för algoritmen HNSW för ungefärliga närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar avvägning mellan sökhastighet och noggrannhet.
| Name | Typ | Description |
|---|---|---|
| hnswParameters |
Innehåller de parametrar som är specifika för HNSW-algoritmen. |
|
| kind |
string:
hnsw |
Namnet på den typ av algoritm som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med den här konfigurationen. |
InputFieldMappingEntry
Mappning av inmatningsfält för en färdighet.
| Name | Typ | Description |
|---|---|---|
| inputs |
Rekursiva indata som används när du skapar en komplex typ. |
|
| name |
string |
Namnet på indata. |
| source |
string |
Källan till indata. |
| sourceContext |
string |
Källkontexten som används för att välja rekursiva indata. |
KeepTokenFilter
Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| keepWords |
string[] |
Listan över ord som ska behållas. |
|
| keepWordsCase |
boolean |
False |
Ett värde som anger om alla ord ska skrivas med gemener först. Standardvärdet är false. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
KeywordMarkerTokenFilter
Markerar termer som nyckelord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| ignoreCase |
boolean |
False |
Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false. |
| keywords |
string[] |
En lista med ord som ska markeras som nyckelord. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
KeywordTokenizer
Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| bufferSize |
integer (int32) |
256 |
Storleken på läsbufferten i byte. Standardvärdet är 256. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
KeywordTokenizerV2
Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Den maximala tokenlängden. Standardvärdet är 256. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
LengthTokenFilter
Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| max |
integer (int32) maximum: 300 |
300 |
Den maximala längden i tecken. Standard och maximum är 300. |
| min |
integer (int32) maximum: 300 |
0 |
Den minsta längden i tecken. Standardvärdet är 0. Maxvärdet är 300. Måste vara mindre än värdet för max. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
LexicalAnalyzerName
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.
| Värde | Description |
|---|---|
| ar.microsoft |
Microsoft Analyzer för arabiska. |
| ar.lucene |
Lucene-analysator för arabiska. |
| hy.lucene |
Lucene-analysator för armeniska. |
| bn.microsoft |
Microsoft-analysator för Bangla. |
| eu.lucene |
Lucene analysator för baskiska. |
| bg.microsoft |
Microsoft analyzer för bulgariska. |
| bg.lucene |
Lucene-analysator för bulgariska. |
| ca.microsoft |
Microsoft Analyzer för katalanska. |
| ca.lucene |
Lucene-analysator för katalanska. |
| zh-Hans.microsoft |
Microsoft Analyzer för kinesiska (förenklad). |
| zh-Hans.lucene |
Lucene-analysator för kinesiska (förenklad). |
| zh-Hant.microsoft |
Microsoft Analyzer för kinesiska (traditionell). |
| zh-Hant.lucene |
Lucene-analysator för kinesiska (traditionell). |
| hr.microsoft |
Microsoft analyzer för kroatiska. |
| cs.microsoft |
Microsoft analyzer för tjeckiska. |
| cs.lucene |
Lucene-analysator för tjeckiska. |
| da.microsoft |
Microsoft analyzer för danska. |
| da.lucene |
Lucene-analysator för danska. |
| nl.microsoft |
Microsoft Analyzer för nederländska. |
| nl.lucene |
Lucene-analysator för nederländska. |
| en.microsoft |
Microsoft Analyzer för engelska. |
| en.lucene |
Lucene-analysator för engelska. |
| et.microsoft |
Microsoft analyzer för estniska. |
| fi.microsoft |
Microsoft analyzer för finska. |
| fi.lucene |
Lucene-analysator för finska. |
| fr.microsoft |
Microsoft Analyzer för franska. |
| fr.lucene |
Lucene-analysator för franska. |
| gl.lucene |
Lucene-analysator för galiciska. |
| de.microsoft |
Microsoft Analyzer för tyska. |
| de.lucene |
Lucene-analysator för tyska. |
| el.microsoft |
Microsoft Analyzer för grekiska. |
| el.lucene |
Lucene-analysator för grekiska. |
| gu.microsoft |
Microsoft analyzer för Gujarati. |
| he.microsoft |
Microsoft Analyzer för hebreiska. |
| hi.microsoft |
Microsoft Analyzer för hindi. |
| hi.lucene |
Lucene-analysator för hindi. |
| hu.microsoft |
Microsoft analyzer för ungerska. |
| hu.lucene |
Lucene-analysator för ungerska. |
| is.microsoft |
Microsoft Analyzer för isländska. |
| id.microsoft |
Microsoft Analyzer för indonesiska (Bahasa). |
| id.lucene |
Lucene-analysator för indonesiska. |
| ga.lucene |
Lucene-analysator för irländska. |
| it.microsoft |
Microsoft analyzer för italienska. |
| it.lucene |
Lucene-analysator för italienska. |
| ja.microsoft |
Microsoft Analyzer för japanska. |
| ja.lucene |
Lucene-analysator för japanska. |
| kn.microsoft |
Microsoft analyzer för Kannada. |
| ko.microsoft |
Microsoft Analyzer för koreanska. |
| ko.lucene |
Lucene-analysator för koreanska. |
| lv.microsoft |
Microsoft analyzer för lettiska. |
| lv.lucene |
Lucene-analysator för lettiska. |
| lt.microsoft |
Microsoft analyzer för litauiska. |
| ml.microsoft |
Microsoft analyzer för malayalam. |
| ms.microsoft |
Microsoft analyzer för malajiska (latin). |
| mr.microsoft |
Microsoft Analyzer för Marathi. |
| nb.microsoft |
Microsoft analyzer för norska (bokmål). |
| no.lucene |
Lucene-analysator för norska. |
| fa.lucene |
Lucene-analysator för persiska. |
| pl.microsoft |
Microsoft Analyzer för polska. |
| pl.lucene |
Lucene-analysator för polska. |
| pt-BR.microsoft |
Microsoft Analyzer för portugisiska (Brasilien). |
| pt-BR.lucene |
Lucene-analysator för portugisiska (Brasilien). |
| pt-PT.microsoft |
Microsoft analyzer för portugisiska (Portugal). |
| pt-PT.lucene |
Lucene-analysator för portugisiska (Portugal). |
| pa.microsoft |
Microsoft-analysator för Punjabi. |
| ro.microsoft |
Microsoft analyzer för rumänska. |
| ro.lucene |
Lucene-analysator för rumänska. |
| ru.microsoft |
Microsoft Analyzer för ryska. |
| ru.lucene |
Lucene-analysator för ryska. |
| sr-cyrillic.microsoft |
Microsoft analyzer för serbiska (kyrillisk). |
| sr-latin.microsoft |
Microsoft analyzer för serbiska (latin). |
| sk.microsoft |
Microsoft analyzer för slovakiska. |
| sl.microsoft |
Microsoft Analyzer för slovenska. |
| es.microsoft |
Microsoft Analyzer för spanska. |
| es.lucene |
Lucene-analysator för spanska. |
| sv.microsoft |
Microsoft analyzer för svenska. |
| sv.lucene |
Lucene analysator för svenska. |
| ta.microsoft |
Microsoft Analyzer för tamil. |
| te.microsoft |
Microsoft analyzer för Telugu. |
| th.microsoft |
Microsoft Analyzer för thailändska. |
| th.lucene |
Lucene-analysator för thailändska. |
| tr.microsoft |
Microsoft-analysator för turkiska. |
| tr.lucene |
Lucene-analysator för turkiska. |
| uk.microsoft |
Microsoft Analyzer för ukrainska. |
| ur.microsoft |
Microsoft analyzer för urdu. |
| vi.microsoft |
Microsoft Analyzer för vietnamesiska. |
| standard.lucene |
Lucene-analysator som standard. |
| standardasciifolding.lucene |
Standard ASCII vikning Lucene-analysator. Se https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, id:n och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
En analysator som använder blankstegstokeniserare. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definierar namnen på alla textnormaliserare som stöds av sökmotorn.
LexicalTokenizerName
Definierar namnen på alla tokeniserare som stöds av sökmotorn.
LimitTokenFilter
Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| consumeAllTokens |
boolean |
False |
Ett värde som anger om alla token från indata måste förbrukas även om maxTokenCount har nåtts. Standardvärdet är false. |
| maxTokenCount |
integer (int32) |
1 |
Det maximala antalet token som ska produceras. Standard är 1. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
LuceneStandardAnalyzer
Standard Apache Lucene-analysator; Består av standardtokeniserare, filter med gemener och stoppfilter.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysator. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
| name |
string |
Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| stopwords |
string[] |
En lista med stoppord. |
LuceneStandardTokenizer
Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxTokenLength |
integer (int32) |
255 |
Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
LuceneStandardTokenizerV2
Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
MagnitudeScoringFunction
Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0. |
| fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
| interpolation |
Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär". |
|
| magnitude |
Parametervärden för storleksbedömningsfunktionen. |
|
| type |
string:
magnitude |
Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener. |
MagnitudeScoringParameters
Tillhandahåller parametervärden till en storleksbedömningsfunktion.
| Name | Typ | Description |
|---|---|---|
| boostingRangeEnd |
number (double) |
Fältvärdet där förstärkningen slutar. |
| boostingRangeStart |
number (double) |
Fältvärdet som boostingen startar vid. |
| constantBoostBeyondRange |
boolean |
Ett värde som anger om en konstant ökning av fältvärden ska tillämpas utöver intervallets slutvärde. Standardvärdet är false. |
MappingCharFilter
Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en given tidpunkt vinner). Ersättning får vara den tomma strängen. Det här teckenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av teckenfilter. |
| mappings |
string[] |
En lista med mappningar i följande format: "a=>b" (alla förekomster av tecknet "a" ersätts med tecknet "b"). |
| name |
string |
Namnet på teckenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
MicrosoftLanguageStemmingTokenizer
Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras grundformer.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| isSearchTokenizer |
boolean |
False |
Ett värde som anger hur tokeniseraren används. Ange till true om det används som söktokeniserare, ange till false om det används som indexeringstokeniserare. Standardvärdet är false. |
| language |
Vilket språk som ska användas. Standardvärdet är engelska. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Token som är längre än den maximala längden delas. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token baserat på den maximala tokenlängd som angetts. Standardvärdet är 255. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
MicrosoftLanguageTokenizer
Delar upp text med hjälp av språkspecifika regler.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| isSearchTokenizer |
boolean |
False |
Ett värde som anger hur tokeniseraren används. Ange till true om det används som söktokeniserare, ange till false om det används som indexeringstokeniserare. Standardvärdet är false. |
| language |
Vilket språk som ska användas. Standardvärdet är engelska. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Token som är längre än den maximala längden delas. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token baserat på den maximala tokenlängd som angetts. Standardvärdet är 255. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
MicrosoftStemmingTokenizerLanguage
Visar en lista över de språk som stöds av Microsofts tokenisering för språkstamsigenkänning.
| Värde | Description |
|---|---|
| arabic |
Väljer Microsofts tokeniserare för ordstamsigenkänning för arabiska. |
| bangla |
Väljer Microsofts tokenizer för ordstamsigenkänning för Bangla. |
| bulgarian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för bulgariska. |
| catalan |
Väljer Microsofts tokeniserare för ordstamsigenkänning för katalanska. |
| croatian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för kroatiska. |
| czech |
Väljer Microsofts tokeniserare för ordstamsigenkänning för tjeckiska. |
| danish |
Väljer Microsofts tokeniserare för ordstamsigenkänning för danska. |
| dutch |
Väljer Microsofts tokeniserare för ordstamsigenkänning för nederländska. |
| english |
Väljer Microsofts tokeniserare för ordstamsigenkänning för engelska. |
| estonian |
Väljer Microsofts tokenizer för ordstamsigenkänning för estniska. |
| finnish |
Väljer Microsofts tokeniserare för ordstamsigenkänning för finska. |
| french |
Väljer Microsofts tokeniserare för ordstamsigenkänning för franska. |
| german |
Väljer Microsofts tokeniserare för ordstamsigenkänning för tyska. |
| greek |
Väljer Microsofts tokeniserare för ordstamsigenkänning för grekiska. |
| gujarati |
Väljer Microsofts tokenizer för ordstamsigenkänning för Gujarati. |
| hebrew |
Väljer Microsofts tokeniserare för ordstamsigenkänning för hebreiska. |
| hindi |
Väljer Microsofts tokeniserare för ordstamsigenkänning för hindi. |
| hungarian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för ungerska. |
| icelandic |
Väljer Microsofts tokeniserare för ordstamsigenkänning för isländska. |
| indonesian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för indonesiska. |
| italian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för italienska. |
| kannada |
Väljer Microsofts tokeniserare för ordstamsigenkänning för Kannada. |
| latvian |
Väljer Microsofts tokenizer för ordstamsigenkänning för lettiska. |
| lithuanian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för litauiska. |
| malay |
Väljer Microsofts tokeniserare för ordstamsigenkänning för malajiska. |
| malayalam |
Väljer Microsofts tokeniserare för ordstamsigenkänning för malayalam. |
| marathi |
Väljer Microsofts tokeniserare för ordstamsigenkänning för marathi. |
| norwegianBokmaal |
Väljer Microsofts tokeniserare för ordstamsigenkänning för norska (bokmål). |
| polish |
Väljer Microsofts tokeniserare för ordstamsigenkänning för polska. |
| portuguese |
Väljer Microsofts tokeniserare för ordstamsigenkänning för portugisiska. |
| portugueseBrazilian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för portugisiska (Brasilien). |
| punjabi |
Väljer Microsofts tokeniserare för ordstamsigenkänning för punjabi. |
| romanian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för rumänska. |
| russian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för ryska. |
| serbianCyrillic |
Väljer Microsofts tokeniserare för ordstamsigenkänning för serbiska (kyrillisk). |
| serbianLatin |
Väljer Microsofts tokeniserare för ordstamsigenkänning för serbiska (latinsk). |
| slovak |
Väljer Microsofts tokeniserare för ordstamsigenkänning för slovakiska. |
| slovenian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för slovenska. |
| spanish |
Väljer Microsofts tokeniserare för ordstamsigenkänning för spanska. |
| swedish |
Väljer Microsofts tokenizer för ordstamsigenkänning för svenska. |
| tamil |
Väljer Microsofts tokeniserare för ordstamsigenkänning för tamil. |
| telugu |
Väljer Microsofts tokeniserare för ordstamsigenkänning för Telugu. |
| turkish |
Väljer Microsofts tokeniserare för ordstamsigenkänning för turkiska. |
| ukrainian |
Väljer Microsofts tokeniserare för ordstamsigenkänning för ukrainska. |
| urdu |
Väljer Microsofts tokenizer för ordstamsigenkänning för urdu. |
MicrosoftTokenizerLanguage
Visar en lista över de språk som stöds av Microsofts språktokeniserare.
| Värde | Description |
|---|---|
| bangla |
Väljer Microsoft-tokeniserare för Bangla. |
| bulgarian |
Väljer Microsoft-tokeniserare för bulgariska. |
| catalan |
Väljer Microsoft-tokeniserare för katalanska. |
| chineseSimplified |
Väljer Microsoft-tokeniserare för kinesiska (förenklad). |
| chineseTraditional |
Väljer Microsoft-tokeniserare för kinesiska (traditionell). |
| croatian |
Väljer Microsoft-tokeniserare för kroatiska. |
| czech |
Väljer Microsoft-tokeniserare för tjeckiska. |
| danish |
Väljer Microsoft-tokeniserare för danska. |
| dutch |
Väljer Microsoft-tokeniserare för nederländska. |
| english |
Väljer Microsoft-tokeniserare för engelska. |
| french |
Väljer Microsoft-tokeniserare för franska. |
| german |
Väljer Microsoft-tokeniserare för tyska. |
| greek |
Väljer Microsoft-tokeniserare för grekiska. |
| gujarati |
Väljer Microsoft-tokeniserare för Gujarati. |
| hindi |
Väljer Microsoft-tokeniserare för hindi. |
| icelandic |
Väljer Microsoft-tokeniserare för isländska. |
| indonesian |
Väljer Microsoft-tokeniserare för indonesiska. |
| italian |
Väljer Microsoft-tokeniserare för italienska. |
| japanese |
Väljer Microsoft-tokeniserare för japanska. |
| kannada |
Väljer Microsoft-tokeniserare för Kannada. |
| korean |
Väljer Microsoft-tokeniserare för koreanska. |
| malay |
Väljer Microsoft-tokeniserare för malajiska. |
| malayalam |
Väljer Microsoft-tokeniserare för malayalam. |
| marathi |
Väljer Microsoft-tokeniserare för marathi. |
| norwegianBokmaal |
Väljer Microsoft-tokeniserare för norska (bokmål). |
| polish |
Väljer Microsoft-tokeniserare för polska. |
| portuguese |
Väljer Microsoft-tokeniserare för portugisiska. |
| portugueseBrazilian |
Väljer Microsoft-tokeniserare för portugisiska (Brasilien). |
| punjabi |
Väljer Microsoft-tokeniserare för Punjabi. |
| romanian |
Väljer Microsoft-tokeniserare för rumänska. |
| russian |
Väljer Microsoft-tokeniserare för ryska. |
| serbianCyrillic |
Väljer Microsoft-tokeniserare för serbiska (kyrillisk). |
| serbianLatin |
Väljer Microsoft-tokeniserare för serbiska (latin). |
| slovenian |
Väljer Microsoft-tokeniserare för slovenska. |
| spanish |
Väljer Microsoft-tokeniserare för spanska. |
| swedish |
Väljer Microsoft-tokeniserare för svenska. |
| tamil |
Väljer Microsoft-tokeniserare för tamil. |
| telugu |
Väljer Microsoft-tokeniseraren för Telugu. |
| thai |
Väljer Microsoft-tokeniserare för thailändska. |
| ukrainian |
Väljer Microsoft-tokeniserare för ukrainska. |
| urdu |
Väljer Microsoft-tokeniseraren för urdu. |
| vietnamese |
Väljer Microsoft-tokeniserare för vietnamesiska. |
NGramTokenFilter
Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| maxGram |
integer (int32) |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. |
| minGram |
integer (int32) |
1 |
Minsta längd på n-gram. Standard är 1. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
NGramTokenFilterV2
Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
NGramTokenizer
Tokeniserar indata i n-gram av den angivna storleken/storlekarna. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| tokenChars |
Teckenklasser som ska behållas i tokens. |
OutputFieldMappingEntry
Mappning av utdatafält för en färdighet.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Namnet på utdata som definieras av färdigheten. |
| targetName |
string |
Målnamnet för utdata. Det är valfritt och standardvärdet är namn. |
PathHierarchyTokenizerV2
Tokenizer för sökvägsliknande hierarkier. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| delimiter |
string (char) |
/ |
Det avgränsningstecken som ska användas. Standardvärdet är "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Den maximala tokenlängden. Standard och maximum är 300. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| replacement |
string (char) |
/ |
Ett värde som, om det anges, ersätter avgränsningstecknet. Standardvärdet är "/". |
| reverse |
boolean |
False |
Ett värde som anger om token ska genereras i omvänd ordning. Standardvärdet är false. |
| skip |
integer (int32) |
0 |
Antalet inledande token som ska hoppas över. Standardvärdet är 0. |
PatternAnalyzer
Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Den här analysatorn implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysator. |
|
| flags |
Flaggor för reguljära uttryck. |
||
| lowercase |
boolean |
True |
Ett värde som anger om termer ska vara gemener. Standardvärdet är sant. |
| name |
string |
Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| pattern |
string |
\W+ |
Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera tecken som inte är ord. |
| stopwords |
string[] |
En lista med stoppord. |
PatternCaptureTokenFilter
Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| patterns |
string[] |
En lista över mönster som ska matchas mot varje token. |
|
| preserveOriginal |
boolean |
True |
Ett värde som anger om den ursprungliga token ska returneras även om något av mönstren matchar. Standardvärdet är sant. |
PatternReplaceCharFilter
Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här teckenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av teckenfilter. |
| name |
string |
Namnet på teckenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
| pattern |
string |
Ett mönster för reguljära uttryck. |
| replacement |
string |
Den ersatta texten. |
PatternReplaceTokenFilter
Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
| pattern |
string |
Ett mönster för reguljära uttryck. |
| replacement |
string |
Den ersatta texten. |
PatternTokenizer
Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| flags |
Flaggor för reguljära uttryck. |
||
| group |
integer (int32) |
-1 |
Den nollbaserade ordningstalet för den matchande gruppen i mönstret för reguljära uttryck som ska extraheras till token. Använd -1 om du vill använda hela mönstret för att dela upp indata i token, oavsett matchande grupper. Standardvärdet är -1. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| pattern |
string |
\W+ |
Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera tecken som inte är ord. |
PhoneticEncoder
Identifierar vilken typ av fonetisk kodare som ska användas med en PhoneticTokenFilter.
| Värde | Description |
|---|---|
| metaphone |
Kodar en token till ett metafonvärde. |
| doubleMetaphone |
Kodar en token till ett dubbelt metafonvärde. |
| soundex |
Kodar en token till ett Soundex-värde. |
| refinedSoundex |
Kodar en token till ett Refined Soundex-värde. |
| caverphone1 |
Kodar en token till ett Caverphone 1.0-värde. |
| caverphone2 |
Kodar en token till ett Caverphone 2.0-värde. |
| cologne |
Kodar en token till ett fonetiskt värde i Köln. |
| nysiis |
Kodar en token till ett NYSIIS-värde. |
| koelnerPhonetik |
Kodar en token med hjälp av Kölner Phonetik-algoritmen. |
| haasePhonetik |
Kodar en token med hjälp av Haase-förfiningen av Kölner Phonetik-algoritmen. |
| beiderMorse |
Kodar en token till ett Beider-Morse värde. |
PhoneticTokenFilter
Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| encoder | metaphone |
Den fonetiska kodare som ska användas. Standard är "metafon". |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| replace |
boolean |
True |
Ett värde som anger om kodade token ska ersätta ursprungliga token. Om det är falskt läggs kodade token till som synonymer. Standardvärdet är sant. |
PrioritizedFields
Beskriver fälten titel, innehåll och nyckelord som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar.
| Name | Typ | Description |
|---|---|---|
| prioritizedContentFields |
Definierar de innehållsfält som ska användas för semantisk rangordning, undertexter, höjdpunkter och svar. För bästa resultat bör de markerade fälten innehålla text i naturlig språkform. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt. |
|
| prioritizedKeywordsFields |
Definierar de nyckelordsfält som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar. För bästa resultat bör de markerade fälten innehålla en lista med nyckelord. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt. |
|
| titleField |
Definierar titelfältet som ska användas för semantisk rangordning, bildtexter, markeringar och svar. Om du inte har något titelfält i indexet lämnar du det tomt. |
RankingOrder
Representerar poäng som ska användas för sorteringsordning för dokument.
| Värde | Description |
|---|---|
| BoostedRerankerScore |
Ställer in sorteringsordningen som BoostedRerankerScore |
| RerankerScore |
Ställer in sorteringsordning som ReRankerScore |
RegexFlags
Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysatorn och mönstertokeniseraren.
| Värde | Description |
|---|---|
| CANON_EQ |
Möjliggör kanonisk ekvivalens. |
| CASE_INSENSITIVE |
Möjliggör skiftlägesokänslig matchning. |
| COMMENTS |
Tillåter blanksteg och kommentarer i mönstret. |
| DOTALL |
Aktiverar dotall-läge. |
| LITERAL |
Aktiverar literal parsning av mönstret. |
| MULTILINE |
Aktiverar flerradsläge. |
| UNICODE_CASE |
Möjliggör Unicode-medveten ärendevikning. |
| UNIX_LINES |
Aktiverar Unix-linjeläge. |
RescoringOptions
Innehåller alternativ för ompoängning.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| defaultOversampling |
number (double) |
Standardfaktor för översampling. Översampling hämtar en större uppsättning potentiella dokument för att kompensera för upplösningsförlusten på grund av kvantisering. Detta ökar uppsättningen resultat som ska poängsättas på nytt på vektorer med full precision. Minsta värde är 1, vilket innebär ingen översampling (1x). Den här parametern kan bara anges när "enableRescoring" är sant. Högre värden förbättrar träffsäkerheten på bekostnad av svarstiden. |
|
| enableRescoring |
boolean |
True |
Om värdet är true, efter den första sökningen på de komprimerade vektorerna, beräknas likhetspoängen om med hjälp av vektorerna med full precision. Detta förbättrar träffsäkerheten på bekostnad av svarstiden. |
| rescoreStorageMethod | preserveOriginals |
Styr lagringsmetoden för ursprungliga vektorer. Den här inställningen är oföränderlig. |
ScalarQuantizationParameters
Innehåller de parametrar som är specifika för skalär kvantisering.
| Name | Typ | Description |
|---|---|---|
| quantizedDataType |
Den kvantiserade datatypen för komprimerade vektorvärden. |
ScalarQuantizationVectorSearchCompressionConfiguration
Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetoden som används vid indexering och frågor.
| Name | Typ | Description |
|---|---|---|
| kind |
string:
scalar |
Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med den här konfigurationen. |
| rescoringOptions |
Innehåller alternativ för ompoängning. |
|
| scalarQuantizationParameters |
Innehåller de parametrar som är specifika för skalär kvantisering. |
|
| truncationDimension |
integer (int32) |
Antalet dimensioner som vektorerna ska trunkeras till. Genom att trunkera vektorerna minskar storleken på vektorerna och mängden data som behöver överföras under sökningen. Detta kan spara lagringskostnader och förbättra sökprestanda på bekostnad av träffsäkerhet. Den bör endast användas för inbäddningar som tränats med Matrjosjka Representation Learning (MRL), till exempel OpenAI text-embedding-3-large (small). Standardvärdet är null, vilket innebär att det inte finns någon trunkering. |
ScoringFunctionAggregation
Definierar den aggregeringsfunktion som används för att kombinera resultaten av alla bedömningsfunktioner i en bedömningsprofil.
| Värde | Description |
|---|---|
| sum |
Öka poängen med summan av alla resultat från bedömningsfunktionen. |
| average |
Öka poängen med medelvärdet av alla poängsättningsfunktionsresultat. |
| minimum |
Öka poängen med ett minimum av alla poängsättningsfunktionsresultat. |
| maximum |
Öka poängen med det maximala av alla poängsättningsfunktionsresultat. |
| firstMatching |
Öka poängen med hjälp av den första tillämpliga poängsättningsfunktionen i bedömningsprofilen. |
ScoringFunctionInterpolation
Definierar den funktion som används för att interpolera poängökning i en rad dokument.
| Värde | Description |
|---|---|
| linear |
Ökar poängen med ett linjärt minskande belopp. Det här är standardinterpolationen för bedömningsfunktioner. |
| constant |
Ökar poängen med en konstant faktor. |
| quadratic |
Ökar poängen med ett belopp som minskar kvadratiskt. Boostar minskar långsamt för högre poäng och snabbare när poängen minskar. Det här interpolationsalternativet är inte tillåtet i taggbedömningsfunktioner. |
| logarithmic |
Ökar poängen med ett belopp som minskar logaritmiskt. Boostar minskar snabbt för högre poäng och långsammare när poängen minskar. Det här interpolationsalternativet är inte tillåtet i taggbedömningsfunktioner. |
ScoringProfile
Definierar parametrar för ett sökindex som påverkar poängsättningen i sökfrågor.
| Name | Typ | Description |
|---|---|---|
| functionAggregation |
Ett värde som anger hur resultaten av enskilda poängsättningsfunktioner ska kombineras. Standardvärdet är "Summa". Ignoreras om det inte finns några poängsättningsfunktioner. |
|
| functions | ScoringFunction[]: |
Samlingen av funktioner som påverkar poängsättningen av dokument. |
| name |
string |
Namnet på bedömningsprofilen. |
| text |
Parametrar som ökar poängsättningen baserat på textmatchningar i vissa indexfält. |
SearchField
Representerar ett fält i en indexdefinition, som beskriver namnet, datatypen och sökfunktionen för ett fält.
| Name | Typ | Description |
|---|---|---|
| analyzer |
Namnet på analysatorn som ska användas för fältet. Det här alternativet kan bara användas med sökbara fält och det kan inte anges tillsammans med antingen searchAnalyzer eller indexAnalyzer. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Dimensionaliteten för vektorfältet. |
| facetable |
boolean |
Ett värde som anger om fältet ska kunna refereras till i fasettfrågor. Används vanligtvis i en presentation av sökresultat som inkluderar antal träffar per kategori (till exempel söka efter digitalkameror och se träffar efter varumärke, megapixlar, pris och så vidare). Den här egenskapen måste vara null för komplexa fält. Fält av typen Edm.GeographyPoint eller Collection(Edm.GeographyPoint) kan inte vara fasettbara. Standardvärdet är true för alla andra enkla fält. |
| fields |
En lista med underfält om det här är ett fält av typen Edm.ComplexType eller Collection(Edm.ComplexType). Måste vara null eller tomt för enkla fält. |
|
| filterable |
boolean |
Ett värde som anger om fältet ska aktiveras som referens i $filter frågor. Filtrerbar skiljer sig från sökbar i hur strängar hanteras. Fält av typen Edm.String eller Collection(Edm.String) som är filtrerbara genomgår inte ordbrytning, så jämförelser är endast för exakta matchningar. Till exempel, om du ställer in ett sådant fält f till "solig dag" kommer $filter=f eq 'solig' inte att hitta några matchningar, men $filter=f eq 'solig dag' kommer att göra det. Den här egenskapen måste vara null för komplexa fält. Standardvärdet är true för enkla fält och null för komplexa fält. |
| indexAnalyzer |
Namnet på analysatorn som används vid indexeringen för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med searchAnalyzer och den kan inte anges tillsammans med analyzer-alternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. Använd egenskapen Analyzer i stället om du behöver ett språkanalysverktyg. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
| key |
boolean |
Ett värde som anger om fältet unikt identifierar dokument i indexet. Exakt ett fält på den översta nivån i varje index måste väljas som nyckelfält och det måste vara av typen Edm.String. Nyckelfält kan användas för att söka efter dokument direkt och uppdatera eller ta bort specifika dokument. Standardvärdet är false för enkla fält och null för komplexa fält. |
| name |
string |
Namnet på fältet, som måste vara unikt i fältsamlingen för indexet eller det överordnade fältet. |
| normalizer |
Namnet på den normaliserare som ska användas för fältet. Det här alternativet kan endast användas med fält som är filtrerbara, sorterbara eller fasettbara aktiverade. När normaliseraren har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
| retrievable |
boolean |
Ett värde som anger om fältet kan returneras i ett sökresultat. Du kan inaktivera det här alternativet om du vill använda ett fält (till exempel marginal) som en filter-, sorterings- eller bedömningsmekanism men inte vill att fältet ska vara synligt för slutanvändaren. Den här egenskapen måste vara true för nyckelfält och den måste vara null för komplexa fält. Den här egenskapen kan ändras i befintliga fält. Om du aktiverar den här egenskapen ökar inte kraven på indexlagring. Standardvärdet är true för enkla fält, false för vektorfält och null för komplexa fält. |
| searchAnalyzer |
Namnet på analysatorn som används vid söktillfället för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med indexAnalyzer och den kan inte anges tillsammans med analyzer-alternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. Använd egenskapen Analyzer i stället om du behöver ett språkanalysverktyg. Den här analysatorn kan uppdateras i ett befintligt fält. Måste vara null för komplexa fält. |
|
| searchable |
boolean |
Ett värde som anger om fältet är sökbart i fulltext. Det innebär att den kommer att genomgå analys, till exempel ordbrytning under indexering. Om du ställer in ett sökbart fält till ett värde som "solig dag" kommer det internt att delas upp i de enskilda tokenerna "soligt" och "dag". Detta möjliggör fulltextsökningar för dessa termer. Fält av typen Edm.String eller Collection(Edm.String) är sökbara som standard. Den här egenskapen måste vara false för enkla fält av andra datatyper som inte är strängar, och den måste vara null för komplexa fält. Sökbara fält tar upp extra utrymme i indexet för att hantera ytterligare tokeniserade versioner av fältvärdet för fulltextsökningar. Om du vill spara utrymme i indexet och du inte vill att ett fält ska ingå i sökningar anger du sökbar till falskt. |
| sortable |
boolean |
Ett värde som anger om fältet ska kunna refereras till i $orderby uttryck. Som standard sorterar sökmotorn resultat efter poäng, men i många fall vill användarna sortera efter fält i dokumenten. Ett enkelt fält kan bara sorteras om det har ett enkelvärde (det har ett enda värde i omfånget för det överordnade dokumentet). Enkla samlingsfält kan inte sorteras eftersom de har flera värden. Enkla underfält i komplexa samlingar har också flera värden och kan därför inte sorteras. Detta gäller oavsett om det är ett omedelbart överordnat fält eller ett överordnat fält, som är den komplexa samlingen. Komplexa fält kan inte sorteras och egenskapen sortable måste vara null för sådana fält. Standardvärdet för sorterbar är true för enkla fält med ett värde, false för enkla fält med flera värden och null för komplexa fält. |
| stored |
boolean |
Ett oföränderligt värde som anger om fältet ska sparas separat på disken för att returneras i ett sökresultat. Du kan inaktivera det här alternativet om du inte planerar att returnera fältinnehållet i ett söksvar för att spara på lagringskostnaderna. Detta kan endast anges när index skapas och endast för vektorfält. Den här egenskapen kan inte ändras för befintliga fält eller anges som falsk för nya fält. Om den här egenskapen är inställd på false måste egenskapen "retrievable" också anges till false. Den här egenskapen måste vara true eller unset för nyckelfält, för nya fält och för icke-vektorfält, och den måste vara null för komplexa fält. Om du inaktiverar den här egenskapen minskar kraven på indexlagring. Standardvärdet är true för vektorfält. |
| synonymMaps |
string[] |
En lista över namnen på synonymkartor som ska associeras med det här fältet. Det här alternativet kan endast användas med sökbara fält. För närvarande stöds endast en synonymkarta per fält. Om du tilldelar en synonymkarta till ett fält ser du till att frågetermer som riktar sig mot det fältet expanderas vid frågetillfället med hjälp av reglerna i synonymkartan. Det här attributet kan ändras i befintliga fält. Måste vara null eller en tom samling för komplexa fält. |
| type |
Fältets datatyp. |
|
| vectorEncoding |
Kodningsformatet för att tolka fältinnehållet. |
|
| vectorSearchProfile |
string |
Namnet på den vektorsökningsprofil som anger vilken algoritm och vektoriserare som ska användas vid sökning i vektorfältet. |
SearchFieldDataType
Definierar datatypen för ett fält i ett sökindex.
| Värde | Description |
|---|---|
| Edm.String |
Anger att ett fält innehåller en sträng. |
| Edm.Int32 |
Anger att ett fält innehåller ett 32-bitars heltal med tecken. |
| Edm.Int64 |
Anger att ett fält innehåller ett 64-bitars heltal med tecken. |
| Edm.Double |
Anger att ett fält innehåller ett IEEE-flyttal med dubbel precision. |
| Edm.Boolean |
Anger att ett fält innehåller ett booleskt värde (sant eller falskt). |
| Edm.DateTimeOffset |
Anger att ett fält innehåller ett datum-/tidsvärde, inklusive tidszonsinformation. |
| Edm.GeographyPoint |
Anger att ett fält innehåller en geografisk plats i form av longitud och latitud. |
| Edm.ComplexType |
Anger att ett fält innehåller ett eller flera komplexa objekt som i sin tur har underfält av andra typer. |
| Edm.Single |
Anger att ett fält innehåller ett flyttalsnummer med enkel precision. Detta är endast giltigt när det används med Collection(Edm.Single). |
| Edm.Half |
Anger att ett fält innehåller ett flyttalsnummer med halv precision. Detta är endast giltigt när det används med Collection(Edm.Half). |
| Edm.Int16 |
Anger att ett fält innehåller ett 16-bitars heltal med tecken. Detta är endast giltigt när det används med Collection(Edm.Int16). |
| Edm.SByte |
Anger att ett fält innehåller ett 8-bitars heltal med tecken. Detta är endast giltigt när det används med Collection(Edm.SByte). |
| Edm.Byte |
Anger att ett fält innehåller ett 8-bitars heltal utan tecken. Detta är endast giltigt när det används med Collection(Edm.Byte). |
SearchIndex
Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.
| Name | Typ | Description |
|---|---|---|
| @odata.etag |
string |
ETag för indexet. |
| analyzers | LexicalAnalyzer[]: |
Analysverktygen för indexet. |
| charFilters | CharFilter[]: |
Teckenfiltren för indexet. |
| corsOptions |
Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet. |
|
| defaultScoringProfile |
string |
Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf). |
| description |
string |
En beskrivning av indexet. |
| encryptionKey |
En beskrivning av en krypteringsnyckel som du skapar i Azure 密钥保管库. Den här nyckeln används för att ge ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data kommer de alltid att förbli krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina uppgifter kommer inte att påverkas. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare. |
|
| fields |
Fälten i indexet. |
|
| name |
string |
Namnet på indexet. |
| normalizers | LexicalNormalizer[]: |
Normaliserarna för indexet. |
| scoringProfiles |
Bedömningsprofilerna för indexet. |
|
| semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
|
| similarity | Similarity: |
Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när indexet skapas och kan inte ändras på befintliga index. Om värdet är null används algoritmen ClassicSimilarity. |
| suggesters |
Förslagsställarna för indexet. |
|
| tokenFilters |
TokenFilter[]:
|
Token filtreras efter indexet. |
| tokenizers | LexicalTokenizer[]: |
Tokeniserarna för indexet. |
| vectorSearch |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
SearchIndexerDataNoneIdentity
Rensar identitetsegenskapen för en datakälla.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av identitet. |
SearchIndexerDataUserAssignedIdentity
Anger identiteten för en datakälla som ska användas.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av identitet. |
| userAssignedIdentity |
string |
Det fullständigt kvalificerade Azure-resurs-ID:t för en användartilldelad hanterad identitet, vanligtvis i formatet "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" som skulle ha tilldelats till söktjänsten. |
SearchResourceEncryptionKey
En kundhanterad krypteringsnyckel i Azure 密钥保管库. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar.
| Name | Typ | Description |
|---|---|---|
| accessCredentials |
Valfria Azure Active Directory-autentiseringsuppgifter som används för att komma åt din Azure Key Vault. Krävs inte om du använder hanterad identitet i stället. |
|
| keyVaultKeyName |
string |
Namnet på din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data. |
| keyVaultKeyVersion |
string |
Den version av din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data. |
| keyVaultUri |
string |
URI:n för din Azure Key Vault, även kallat DNS-namn, som innehåller nyckeln som ska användas för att kryptera dina vilande data. Ett exempel på en URI kan vara |
SemanticConfiguration
Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Namnet på den semantiska konfigurationen. |
| prioritizedFields |
Beskriver titel-, innehålls- och nyckelordsfälten som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar. Minst en av de tre underegenskaperna (titleField, prioritizedKeywordsFields och prioritizedContentFields) måste anges. |
|
| rankingOrder |
Anger vilken poängtyp som ska användas för sökresultatens sorteringsordning. |
SemanticField
Ett fält som används som en del av den semantiska konfigurationen.
| Name | Typ | Description |
|---|---|---|
| fieldName |
string |
SemanticSettings
Definierar parametrar för ett sökindex som påverkar semantiska funktioner.
| Name | Typ | Description |
|---|---|---|
| configurations |
De semantiska konfigurationerna för indexet. |
|
| defaultConfiguration |
string |
Gör att du kan ange namnet på en semantisk standardkonfiguration i ditt index, vilket gör det valfritt att skicka den vidare som en frågeparameter varje gång. |
ShingleTokenFilter
Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| filterToken |
string |
_ |
Strängen som ska infogas för varje position där det inte finns någon token. Standard är ett understreck ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Den maximala singelstorleken. Standardvärdet och minimivärdet är 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Minsta storlek på singel. Standardvärdet och minimivärdet är 2. Måste vara mindre än värdet för maxShingleSize. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| outputUnigrams |
boolean |
True |
Ett värde som anger om utdataströmmen kommer att innehålla indatatoken (unigram) samt bältros. Standardvärdet är sant. |
| outputUnigramsIfNoShingles |
boolean |
False |
Ett värde som anger om unigram ska matas ut för de tider då inga bältros är tillgängliga. Den här egenskapen har företräde när outputUnigrams är inställt på false. Standardvärdet är false. |
| tokenSeparator |
string |
Strängen som ska användas när du sammanfogar intilliggande token för att bilda en singel. Standardvärdet är ett enda blanksteg (" "). |
SnowballTokenFilter
Ett filter som stammar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
| language |
Vilket språk som ska användas. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
SnowballTokenFilterLanguage
Det språk som ska användas för ett Snowball-tokenfilter.
| Värde | Description |
|---|---|
| armenian |
Väljer Lucene Snowball stemming tokenizer för armeniska. |
| basque |
Väljer Lucene Snowball stemming tokenizer för baskiska. |
| catalan |
Väljer Lucene Snowball stemming tokenizer för katalanska. |
| danish |
Väljer Lucene Snowball stemming tokenizer för danska. |
| dutch |
Väljer Lucene Snowball stemming tokenizer för nederländska. |
| english |
Väljer Lucene Snowball stemming tokenizer för engelska. |
| finnish |
Väljer Lucene Snowball stemming tokenizer för finska. |
| french |
Väljer Lucene Snowball stemming tokenizer för franska. |
| german |
Väljer Lucene Snowball stemming tokenizer för tyska. |
| german2 |
Väljer den Lucene Snowball-tokeniserare som använder den tyska variantalgoritmen. |
| hungarian |
Väljer Lucene Snowball stemming tokenizer för ungerska. |
| italian |
Väljer Lucene Snowball stemming tokenizer för italienska. |
| kp |
Väljer Lucene Snowball-tokeniseraren för nederländare som använder algoritmen för Kraaij-Pohlmann härstamning. |
| lovins |
Väljer Lucene Snowball-tokeniseraren för engelsk stamning som använder Lovins algoritm för ordstamning. |
| norwegian |
Väljer Lucene Snowball-tokeniseraren för att härstamma från Norwegian. |
| porter |
Väljer Lucene Snowball stemming tokenizer för engelska som använder Porter stemming-algoritmen. |
| portuguese |
Väljer Lucene Snowball stemming tokenizer för portugisiska. |
| romanian |
Väljer Lucene Snowball stemming tokenizer för rumänska. |
| russian |
Väljer Lucene Snowball stemming tokenizer för ryska. |
| spanish |
Väljer Lucene Snowball stemming tokenizer för spanska. |
| swedish |
Väljer Lucene Snowball stemming tokenizer för svenska. |
| turkish |
Väljer Lucene Snowball-stammens tokenizer för turkiska. |
StemmerOverrideTokenFilter
Ger möjlighet att åsidosätta andra ordstamsfilter med anpassad ordlistebaserad ordstamsigenkänning. Alla termer som härstammar från ordböcker kommer att markeras som nyckelord så att de inte kommer att hejdas av stemmers längre ner i kedjan. Måste placeras före eventuella stämplingsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
| rules |
string[] |
En lista med regler för ordstamsigenkänning i följande format: "word => stem", till exempel: "ran => run". |
StemmerTokenFilter
Språkspecifikt ordstamsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
| language |
Vilket språk som ska användas. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
StemmerTokenFilterLanguage
Det språk som ska användas för ett stemmer-tokenfilter.
| Värde | Description |
|---|---|
| arabic |
Väljer Lucene-tokeniseraren för avstamning för arabiska. |
| armenian |
Väljer Lucene-stammens tokenizer för armeniska. |
| basque |
Väljer Lucene-tokeniseraren för avstamning för baskiska. |
| brazilian |
Väljer Lucene-tokeniseraren för avstamning för portugisiska (Brasilien). |
| bulgarian |
Väljer Lucene-stammens tokenizer för bulgariska. |
| catalan |
Väljer Lucene-tokeniseraren för härstamning för katalanska. |
| czech |
Väljer Lucene-tokeniseraren för avstamning för tjeckiska. |
| danish |
Väljer Lucene-tokeniseraren för avstamning för danska. |
| dutch |
Väljer Lucene-tokeniseraren för avstamning för nederländska. |
| dutchKp |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för nederländska som använder algoritmen för Kraaij-Pohlmann härstamning. |
| english |
Väljer Lucene-tokeniseraren för avstamning på engelska. |
| lightEnglish |
Väljer Lucene-tokeniseraren för härstamning för engelska som gör lätt stamning. |
| minimalEnglish |
Väljer Lucene stemming-tokeniserare för engelska som gör minimal stemming. |
| possessiveEnglish |
Väljer Lucene-stammens tokenizer för engelska som tar bort avslutande possessiv från ord. |
| porter2 |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för engelska som använder algoritmen för ordstamsigenkänning Porter2. |
| lovins |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för engelska som använder algoritmen för Lovins härstamning. |
| finnish |
Väljer Lucene-tokeniseraren för härstamning för finska. |
| lightFinnish |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för finska som gör lätt stamning. |
| french |
Väljer Lucene-tokeniseraren för avstamning för franska. |
| lightFrench |
Väljer Lucene-tokeniseraren för härstamning för franska som gör lätt stamning. |
| minimalFrench |
Väljer Lucene-tokeniseraren för avstamning för franska som utför minimal härstamning. |
| galician |
Väljer Lucene-stammens tokenizer för galiciska. |
| minimalGalician |
Väljer Lucene-tokeniseraren för härstamning för galiciska som gör minimal härstamning. |
| german |
Väljer Lucene-tokeniseraren för avstamning för tyska. |
| german2 |
Väljer den Lucene-stammande tokeniserare som använder den tyska variantalgoritmen. |
| lightGerman |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för tyska som gör lätt stamning. |
| minimalGerman |
Väljer Lucene-tokeniseraren för härstamning för tyska som gör minimal härstamning. |
| greek |
Väljer Lucene-stammens tokenizer för grekiska. |
| hindi |
Väljer Lucene-tokeniseraren för avstamning för hindi. |
| hungarian |
Väljer Lucene-stammens tokenizer för ungerska. |
| lightHungarian |
Väljer Lucene-tokeniseraren för stamning för ungerska som gör lätt stamning. |
| indonesian |
Väljer Lucene-stammens tokenizer för indonesiska. |
| irish |
Väljer Lucene-tokeniseraren för härstamning för irländska. |
| italian |
Väljer Lucene-tokeniseraren för härstamning för italienska. |
| lightItalian |
Väljer Lucene-tokeniseraren för härstamning för italienska som gör lätt stamning. |
| sorani |
Väljer Lucene-tokeniseraren för avstamning för Sorani. |
| latvian |
Väljer Lucene-tokeniseraren för avstamning för lettiska. |
| norwegian |
Väljer Lucene-tokeniseraren för avledning för norska (bokmål). |
| lightNorwegian |
Väljer Lucene-tokeniseraren för härstamning för norska (bokmål) som använder lätt stamning. |
| minimalNorwegian |
Väljer Lucene-tokenisering för härstamning för norska (bokmål) som gör minimal härstamning. |
| lightNynorsk |
Väljer Lucene-tokeniseraren för härstamning för norska (nynorsk) som gör lätt stamning. |
| minimalNynorsk |
Väljer Lucene-tokeniseraren för härstamning för norska (nynorsk) som gör minimal härstamning. |
| portuguese |
Väljer Lucene-tokeniseraren för avstamning för portugisiska. |
| lightPortuguese |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för portugisiska som gör lätt stamning. |
| minimalPortuguese |
Väljer Lucene stemming-tokenizer för portugisiska som gör minimal stamning. |
| portugueseRslp |
Väljer Lucene-tokeniseraren för ordstamsigenkänning för portugisiska som använder RSLP-algoritmen för härstamning. |
| romanian |
Väljer Lucene-stammens tokenizer för rumänska. |
| russian |
Väljer Lucene-stammens tokenizer för ryska. |
| lightRussian |
Väljer Lucene-stammens tokenizer för ryska som gör lätt stamning. |
| spanish |
Väljer Lucene-tokeniseraren för avstamning för spanska. |
| lightSpanish |
Väljer Lucene-tokeniseraren för stamning för spanska som gör lätt stamning. |
| swedish |
Väljer Lucene-stammens tokenizer för svenska. |
| lightSwedish |
Väljer Lucene stemming tokenizer för svenska som gör light stemming. |
| turkish |
Väljer Lucene-stammens tokenizer för turkiska. |
StopAnalyzer
Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Den här analysatorn implementeras med hjälp av Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysator. |
| name |
string |
Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
| stopwords |
string[] |
En lista med stoppord. |
StopwordsList
Identifierar en fördefinierad lista med språkspecifika stoppord.
| Värde | Description |
|---|---|
| arabic |
Markerar stoppordslistan för arabiska. |
| armenian |
Markerar stoppordslistan för armeniska. |
| basque |
Markerar stoppordslistan för baskiska. |
| brazilian |
Markerar stoppordslistan för portugisiska (Brasilien). |
| bulgarian |
Markerar stoppordslistan för bulgariska. |
| catalan |
Markerar stoppordslistan för katalanska. |
| czech |
Markerar stoppordslistan för tjeckiska. |
| danish |
Markerar stoppordslistan för danska. |
| dutch |
Markerar stoppordslistan för nederländska. |
| english |
Väljer stoppordslista för engelska. |
| finnish |
Markerar stoppordslistan för finska. |
| french |
Väljer stoppordslistan för franska. |
| galician |
Markerar stoppordslistan för galiciska. |
| german |
Väljer stoppordslistan för tyska. |
| greek |
Markerar stoppordslistan för grekiska. |
| hindi |
Markerar stoppordslistan för hindi. |
| hungarian |
Markerar stoppordslistan för ungerska. |
| indonesian |
Väljer stoppordslista för indonesiska. |
| irish |
Väljer stoppordslistan för iriska. |
| italian |
Markerar stoppordslistan för italienska. |
| latvian |
Markerar stoppordslistan för lettiska. |
| norwegian |
Markerar stoppordslistan för norska. |
| persian |
Markerar stoppordslistan för persiska. |
| portuguese |
Markerar stoppordslistan för portugisiska. |
| romanian |
Markerar stoppordslistan för rumänska. |
| russian |
Väljer stoppordslistan för ryska. |
| sorani |
Markerar stoppordslistan för Sorani. |
| spanish |
Väljer stoppordslistan för spanska. |
| swedish |
Markerar stoppordslistan för svenskan. |
| thai |
Markerar stoppordslistan för thailändska. |
| turkish |
Markerar stoppordslistan för turkiska. |
StopwordsTokenFilter
Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| ignoreCase |
boolean |
False |
Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| removeTrailing |
boolean |
True |
Ett värde som anger om den sista söktermen ska ignoreras om det är ett stoppord. Standardvärdet är sant. |
| stopwords |
string[] |
Listan med stoppord. Det går inte att ange både den här egenskapen och egenskapen stopwords list. |
|
| stopwordsList | english |
En fördefinierad lista med stoppord som ska användas. Det går inte att ange både den här egenskapen och egenskapen stopwords. Standard är engelska. |
Suggester
Definierar hur Suggest-API:et ska gälla för en grupp fält i indexet.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Namnet på förslagsställaren. |
| searchMode |
Ett värde som anger förslagsställarens funktioner. |
|
| sourceFields |
string[] |
Listan över fältnamn som förslagsställaren gäller för. Varje fält måste vara sökbart. |
SuggesterSearchMode
Ett värde som anger förslagsställarens funktioner.
| Värde | Description |
|---|---|
| analyzingInfixMatching |
Matchar på varandra följande hela termer och prefix i ett fält. För fältet "Den snabbaste bruna räven" skulle till exempel frågorna "snabb" och "snabbaste brynet" båda matcha. |
SynonymTokenFilter
Matchar synonymer med ett eller flera ord i en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| expand |
boolean |
True |
Ett värde som anger om alla ord i listan med synonymer (om => notation inte används) kommer att mappas till varandra. Om det är sant kommer alla ord i listan över synonymer (om => notation inte används) att mappas till varandra. Följande lista: otroligt, otroligt, fantastiskt, fantastiskt motsvarar: otroligt, otroligt, fantastiskt, fantastiskt => otroligt, otroligt, fantastiskt, fantastiskt. Om det är falskt kommer följande lista: otroligt, otroligt, fantastiskt, fantastiskt att motsvara: otroligt, otroligt, fantastiskt, fantastiskt => otroligt. Standardvärdet är sant. |
| ignoreCase |
boolean |
False |
Ett värde som anger om indata ska skiftlägesvikas för matchning. Standardvärdet är false. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| synonyms |
string[] |
En lista med synonymer i ett av två format: 1. otroligt, otroligt, fantastiskt => fantastiskt - alla termer på vänster sida av => symbolen kommer att ersättas med alla termer på dess högra sida; 2. otroligt, otroligt, fantastiskt, fantastiskt - kommaseparerad lista med motsvarande ord. Ange expanderingsalternativet för att ändra hur den här listan tolkas. |
TagScoringFunction
Definierar en funktion som ökar poängen för dokument med strängvärden som matchar en viss lista med taggar.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0. |
| fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
| interpolation |
Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär". |
|
| tag |
Parametervärden för taggbedömningsfunktionen. |
|
| type |
string:
tag |
Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener. |
TagScoringParameters
Tillhandahåller parametervärden till en taggbedömningsfunktion.
| Name | Typ | Description |
|---|---|---|
| tagsParameter |
string |
Namnet på parametern som skickas i sökfrågor för att ange listan med taggar som ska jämföras med målfältet. |
TextWeights
Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.
| Name | Typ | Description |
|---|---|---|
| weights |
object |
Ordlistan med vikter per fält för att öka dokumentpoängsättningen. Nycklarna är fältnamn och värdena är vikterna för varje fält. |
TokenCharacterKind
Representerar klasser av tecken som ett tokenfilter kan användas på.
| Värde | Description |
|---|---|
| letter |
Behåller bokstäver i tokens. |
| digit |
Behåller siffror i tokens. |
| whitespace |
Behåller blanksteg i tokens. |
| punctuation |
Behåller skiljetecken i token. |
| symbol |
Behåller symboler i tokens. |
TokenFilterName
Definierar namnen på alla tokenfilter som stöds av sökmotorn.
TruncateTokenFilter
Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| length |
integer (int32) maximum: 300 |
300 |
Den längd med vilken termerna ska trunkeras. Standard och maximum är 300. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
UaxUrlEmailTokenizer
Tokeniserar webbadresser och e-postmeddelanden som en token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
| name |
string |
Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
UniqueTokenFilter
Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| onlyOnSamePosition |
boolean |
False |
Ett värde som anger om dubbletter endast ska tas bort på samma position. Standardvärdet är false. |
VectorEncodingFormat
Kodningsformatet för tolkning av vektorfältinnehåll.
| Värde | Description |
|---|---|
| packedBit |
Kodningsformat som representerar bitar som packats in i en bredare datatyp. |
VectorSearch
Innehåller konfigurationsalternativ relaterade till vektorsökning.
| Name | Typ | Description |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Innehåller konfigurationsalternativ som är specifika för den algoritm som används under indexering eller frågor. |
| compressions | VectorSearchCompressionConfiguration[]: |
Innehåller konfigurationsalternativ som är specifika för den komprimeringsmetod som används vid indexering eller frågor. |
| profiles |
Definierar kombinationer av konfigurationer som ska användas med vektorsökning. |
|
| vectorizers | VectorSearchVectorizer[]: |
Innehåller konfigurationsalternativ för hur du vektoriserar textvektorfrågor. |
VectorSearchAlgorithmKind
Algoritmen som används för indexering och frågor.
| Värde | Description |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), en typ av approximativ algoritm för närmaste grannar. |
| exhaustiveKnn |
Uttömmande KNN-algoritm som kommer att utföra brute-force-sökning. |
VectorSearchAlgorithmMetric
Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på.
| Värde | Description |
|---|---|
| cosine |
Mäter vinkeln mellan vektorer för att kvantifiera deras likhet, utan hänsyn till storlek. Ju mindre vinkeln är, desto närmare blir likheten. |
| euclidean |
Beräknar det rätlinjiga avståndet mellan vektorer i ett flerdimensionellt utrymme. Ju mindre avstånd, desto närmare likhet. |
| dotProduct |
Beräknar summan av elementvisa produkter för att mäta justering och storlekslikhet. Ju större och mer positiv, desto närmare blir likheten. |
| hamming |
Gäller endast för bitpackade binära datatyper. Bestämmer olikhet genom att räkna olika positioner i binära vektorer. Ju färre skillnader, desto närmare blir likheten. |
VectorSearchCompressionKind
Den komprimeringsmetod som används för indexering och frågor.
| Värde | Description |
|---|---|
| scalarQuantization |
Skalär kvantisering, en typ av komprimeringsmetod. Vid skalär kvantisering komprimeras de ursprungliga vektorvärdena till en smalare typ genom att diskretisera och representera varje komponent i en vektor med hjälp av en reducerad uppsättning kvantiserade värden, vilket minskar den totala datastorleken. |
| binaryQuantization |
Binär kvantisering, en typ av komprimeringsmetod. Vid binär kvantisering komprimeras de ursprungliga vektorvärdena till den smalare binära typen genom att diskretisera och representera varje komponent i en vektor med binära värden, vilket minskar den totala datastorleken. |
VectorSearchCompressionRescoreStorageMethod
Lagringsmetoden för de ursprungliga vektorerna med full precision som används för ompoängning och interna indexåtgärder.
| Värde | Description |
|---|---|
| preserveOriginals |
Med det här alternativet bevaras de ursprungliga vektorerna med full precision. Välj det här alternativet om du vill ha maximal flexibilitet och högsta kvalitet på komprimerade sökresultat. Detta förbrukar mer lagringsutrymme men möjliggör ombedömning och översampling. |
| discardOriginals |
Det här alternativet tar bort de ursprungliga vektorerna med full precision. Välj det här alternativet om du vill spara maximalt lagringsutrymme. Eftersom det här alternativet inte tillåter ompoängning och översampling orsakar det ofta små till måttliga kvalitetsminskningar. |
VectorSearchCompressionTargetDataType
Den kvantiserade datatypen för komprimerade vektorvärden.
| Värde | Description |
|---|---|
| int8 |
VectorSearchProfile
Definierar en kombination av konfigurationer som ska användas med vektorsökning.
| Name | Typ | Description |
|---|---|---|
| algorithm |
string |
Namnet på konfigurationen av vektorsökningsalgoritmen som anger algoritmen och valfria parametrar. |
| compression |
string |
Namnet på konfigurationen av komprimeringsmetoden som anger komprimeringsmetoden och valfria parametrar. |
| name |
string |
Namnet som ska associeras med den här vektorsökningsprofilen. |
| vectorizer |
string |
Namnet på vektoriseringen som konfigureras för användning med vektorsökning. |
VectorSearchVectorizerKind
Den vektoriseringsmetod som ska användas under frågetiden.
| Värde | Description |
|---|---|
| azureOpenAI |
Generera inbäddningar med hjälp av en Azure OpenAI-resurs vid frågetillfället. |
| customWebApi |
Generera inbäddningar med hjälp av en anpassad webbslutpunkt vid frågetillfället. |
WebApiParameters
Anger egenskaperna för anslutning till en användardefinierad vektoriserare.
| Name | Typ | Description |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Den användartilldelade hanterade identiteten som används för utgående anslutningar. Om ett authResourceId anges och det inte anges används den system tilldelade hanterade identiteten. Vid uppdateringar av indexeraren, om identiteten är ospecificerad, förblir värdet oförändrat. Om värdet är "none" rensas värdet för den här egenskapen. |
| authResourceId |
string |
Gäller för anpassade slutpunkter som ansluter till extern kod i en Azure-funktion eller något annat program som tillhandahåller transformeringarna. Det här värdet ska vara det program-ID som skapades för funktionen eller appen när den registrerades med Azure Active Directory. När det anges ansluter vektoriseringen till funktionen eller appen med hjälp av ett hanterat ID (antingen system eller användartilldelat) för söktjänsten och åtkomsttoken för funktionen eller appen, med hjälp av det här värdet som resurs-ID för att skapa omfånget för åtkomsttoken. |
| httpHeaders |
object |
De huvuden som krävs för att göra HTTP-begäran. |
| httpMethod |
string |
Metoden för HTTP-begäran. |
| timeout |
string (duration) |
Önskad tidsgräns för begäran. Standardvärdet är 30 sekunder. |
| uri |
string (uri) |
URI:n för webb-API:et som tillhandahåller vektoriseraren. |
WebApiVectorizer
Anger en användardefinierad vektoriserare för att generera vektorinbäddningen av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.
| Name | Typ | Description |
|---|---|---|
| customWebApiParameters |
Anger egenskaperna för den användardefinierade vektoriseraren. |
|
| kind |
string:
custom |
Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning. |
| name |
string |
Namnet som ska associeras med just den här vektoriseringsmetoden. |
WordDelimiterTokenFilter
Delar upp ord i underord och utför valfria omvandlingar på underordsgrupper. Det här tokenfiltret implementeras med hjälp av Apache Lucene.
| Name | Typ | Standardvärde | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenfilter. |
|
| catenateAll |
boolean |
False |
Ett värde som anger om alla underordsdelar kommer att catenated. Om detta till exempel är inställt på true blir "Azure-Search-1" "AzureSearch1". Standardvärdet är false. |
| catenateNumbers |
boolean |
False |
Ett värde som anger om maximala körningar av antal delar kommer att catenated. Om detta till exempel är inställt på true blir "1-2" "12". Standardvärdet är false. |
| catenateWords |
boolean |
False |
Ett värde som anger om maximalt antal körningar av orddelar kommer att catenated. Om detta till exempel är inställt på true blir "Azure-Search" "AzureSearch". Standardvärdet är false. |
| generateNumberParts |
boolean |
True |
Ett värde som anger om numeriska underord ska genereras. Standardvärdet är sant. |
| generateWordParts |
boolean |
True |
Ett värde som anger om delord ska genereras. Om den är inställd, gör att delar av ord genereras; Till exempel blir "AzureSearch" "Azure", "Search". Standardvärdet är sant. |
| name |
string |
Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. |
|
| preserveOriginal |
boolean |
False |
Ett värde som anger om de ursprungliga orden kommer att bevaras och läggas till i underordslistan. Standardvärdet är false. |
| protectedWords |
string[] |
En lista över token som ska skyddas från att avgränsas. |
|
| splitOnCaseChange |
boolean |
True |
Ett värde som anger om ord ska delas upp i caseChange. Om detta till exempel är inställt på true blir "AzureSearch" "Azure" "Search". Standardvärdet är sant. |
| splitOnNumerics |
boolean |
True |
Ett värde som anger om du vill dela upp på tal. Om detta till exempel är inställt på true blir "Azure1Search" "Azure" "1" "Search". Standardvärdet är sant. |
| stemEnglishPossessive |
boolean |
True |
Ett värde som anger om avslutande "s" ska tas bort för varje underord. Standardvärdet är sant. |