Dela via


Indexes - Create Or Update

Skapar ett nytt sökindex eller uppdaterar ett index om det redan finns.

PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01

URI-parametrar

Name I Obligatorisk Typ Description
endpoint
path True

string

Slutpunkts-URL:en för söktjänsten.

indexName
path True

string

Definitionen av indexet som ska skapas eller uppdateras.

api-version
query True

string

Klient-API-version.

allowIndexDowntime
query

boolean

Gör att nya analysverktyg, tokeniserare, tokenfilter eller char-filter kan läggas till i ett index genom att ta indexet offline i minst några sekunder. Detta gör att indexerings- och frågebegäranden tillfälligt misslyckas. Indexets prestanda och skrivtillgänglighet kan försämras i flera minuter efter att indexet har uppdaterats, eller längre för mycket stora index.

Begärandehuvud

Name Obligatorisk Typ Description
x-ms-client-request-id

string (uuid)

Spårnings-ID:t som skickades med begäran för att hjälpa till med felsökning.

If-Match

string

Definierar villkoret If-Match. Åtgärden utförs endast om ETag på servern matchar det här värdet.

If-None-Match

string

Definierar villkoret Om-None-Match. Åtgärden utförs endast om ETag på servern inte matchar det här värdet.

Prefer True

string

För HTTP PUT-begäranden instruerar tjänsten att returnera den skapade/uppdaterade resursen när den lyckas.

Begärandetext

Name Obligatorisk Typ Description
fields True

SearchField[]

Fälten i indexet.

name True

string

Namnet på indexet.

@odata.etag

string

ETag för indexet.

analyzers LexicalAnalyzer[]:

Analysverktygen för indexet.

charFilters CharFilter[]:

Teckenfiltren för indexet.

corsOptions

CorsOptions

Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet.

defaultScoringProfile

string

Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf).

description

string

En beskrivning av indexet.

encryptionKey

SearchResourceEncryptionKey

En beskrivning av en krypteringsnyckel som du skapar i Azure 密钥保管库. Den här nyckeln används för att ge ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data kommer de alltid att förbli krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina uppgifter kommer inte att påverkas. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normaliserarna för indexet.

scoringProfiles

ScoringProfile[]

Bedömningsprofilerna för indexet.

semantic

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

similarity Similarity:

Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när indexet skapas och kan inte ändras på befintliga index. Om värdet är null används algoritmen ClassicSimilarity.

suggesters

Suggester[]

Förslagsställarna för indexet.

tokenFilters TokenFilter[]:

Token filtreras efter indexet.

tokenizers LexicalTokenizer[]:

Tokeniserarna för indexet.

vectorSearch

VectorSearch

Innehåller konfigurationsalternativ relaterade till vektorsökning.

Svar

Name Typ Description
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

Felsvar.

Exempel

SearchServiceCreateOrUpdateIndex

Exempelbegäran

PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01





{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Exempelsvar

{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}
{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Definitioner

Name Description
AsciiFoldingTokenFilter

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.

AzureOpenAIEmbeddingSkill

Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen.

AzureOpenAIModelName

Namnet på Azure Open AI-modellen som ska anropas.

AzureOpenAIParameters

Anger parametrarna för att ansluta till Azure OpenAI-resursen.

AzureOpenAIVectorizer

Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.

BinaryQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för komprimeringsmetoden för binär kvantisering som används vid indexering och frågor.

BM25Similarity

Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som inkluderar längdnormalisering (styrs av parametern "b") samt termfrekvensmättnad (styrs av parametern "k1").

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

CjkBigramTokenFilter

Bildar bigram med CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

CjkBigramTokenFilterScripts

Skript som kan ignoreras av CjkBigramTokenFilter.

ClassicSimilarity

Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.

ClassicTokenizer

Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta dokument på europeiska språk. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

CommonGramTokenFilter

Skapa bigram för ofta förekommande termer vid indexering. Enskilda termer indexeras också fortfarande, med bigram överlappande. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

CorsOptions

Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index.

CustomAnalyzer

Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokeniserare och ett eller flera filter. Tokeniseraren ansvarar för att dela upp text i token och filtren för att ändra token som genereras av tokeniseraren.

CustomNormalizer

Gör att du kan konfigurera normalisering för filtrerbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras.

DictionaryDecompounderTokenFilter

Bryter ner sammansatta ord som finns i många germanska språk. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

DistanceScoringFunction

Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.

DistanceScoringParameters

Tillhandahåller parametervärden till en funktion för avståndsbedömning.

EdgeNGramTokenFilter

Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

EdgeNGramTokenFilterSide

Anger vilken sida av indata ett n-gram ska genereras från.

EdgeNGramTokenFilterV2

Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

EdgeNGramTokenizer

Tokeniserar indata från en kant till n-gram av den angivna storleken. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

ElisionTokenFilter

Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Det här tokenfiltret implementeras med hjälp av Apache Lucene.

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

ErrorDetail

Felinformationen.

ErrorResponse

Felsvar

ExhaustiveKnnParameters

Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den omfattande KNN-algoritmen som används vid frågor, som utför brute force-sökning över hela vektorindexet.

FreshnessScoringFunction

Definierar en funktion som ökar poängen baserat på värdet i ett datum/tid-fält.

FreshnessScoringParameters

Tillhandahåller parametervärden till en funktion för färskhetsbedömning.

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

HnswVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för algoritmen HNSW för ungefärliga närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar avvägning mellan sökhastighet och noggrannhet.

InputFieldMappingEntry

Mappning av inmatningsfält för en färdighet.

KeepTokenFilter

Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

KeywordMarkerTokenFilter

Markerar termer som nyckelord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

KeywordTokenizer

Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

KeywordTokenizerV2

Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

LengthTokenFilter

Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

LexicalNormalizerName

Definierar namnen på alla textnormaliserare som stöds av sökmotorn.

LexicalTokenizerName

Definierar namnen på alla tokeniserare som stöds av sökmotorn.

LimitTokenFilter

Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

LuceneStandardAnalyzer

Standard Apache Lucene-analysator; Består av standardtokeniserare, filter med gemener och stoppfilter.

LuceneStandardTokenizer

Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

LuceneStandardTokenizerV2

Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

MagnitudeScoringFunction

Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.

MagnitudeScoringParameters

Tillhandahåller parametervärden till en storleksbedömningsfunktion.

MappingCharFilter

Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en given tidpunkt vinner). Ersättning får vara den tomma strängen. Det här teckenfiltret implementeras med hjälp av Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras grundformer.

MicrosoftLanguageTokenizer

Delar upp text med hjälp av språkspecifika regler.

MicrosoftStemmingTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts tokenisering för språkstamsigenkänning.

MicrosoftTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts språktokeniserare.

NGramTokenFilter

Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

NGramTokenFilterV2

Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

NGramTokenizer

Tokeniserar indata i n-gram av den angivna storleken/storlekarna. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

OutputFieldMappingEntry

Mappning av utdatafält för en färdighet.

PathHierarchyTokenizerV2

Tokenizer för sökvägsliknande hierarkier. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

PatternAnalyzer

Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Den här analysatorn implementeras med hjälp av Apache Lucene.

PatternCaptureTokenFilter

Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

PatternReplaceCharFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här teckenfiltret implementeras med hjälp av Apache Lucene.

PatternReplaceTokenFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här tokenfiltret implementeras med hjälp av Apache Lucene.

PatternTokenizer

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

PhoneticEncoder

Identifierar vilken typ av fonetisk kodare som ska användas med en PhoneticTokenFilter.

PhoneticTokenFilter

Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

PrioritizedFields

Beskriver fälten titel, innehåll och nyckelord som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar.

RankingOrder

Representerar poäng som ska användas för sorteringsordning för dokument.

RegexFlags

Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysatorn och mönstertokeniseraren.

RescoringOptions

Innehåller alternativ för ompoängning.

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för skalär kvantisering.

ScalarQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetoden som används vid indexering och frågor.

ScoringFunctionAggregation

Definierar den aggregeringsfunktion som används för att kombinera resultaten av alla bedömningsfunktioner i en bedömningsprofil.

ScoringFunctionInterpolation

Definierar den funktion som används för att interpolera poängökning i en rad dokument.

ScoringProfile

Definierar parametrar för ett sökindex som påverkar poängsättningen i sökfrågor.

SearchField

Representerar ett fält i en indexdefinition, som beskriver namnet, datatypen och sökfunktionen för ett fält.

SearchFieldDataType

Definierar datatypen för ett fält i ett sökindex.

SearchIndex

Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.

SearchIndexerDataNoneIdentity

Rensar identitetsegenskapen för en datakälla.

SearchIndexerDataUserAssignedIdentity

Anger identiteten för en datakälla som ska användas.

SearchResourceEncryptionKey

En kundhanterad krypteringsnyckel i Azure 密钥保管库. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar.

SemanticConfiguration

Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner.

SemanticField

Ett fält som används som en del av den semantiska konfigurationen.

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

ShingleTokenFilter

Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

SnowballTokenFilter

Ett filter som stammar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

SnowballTokenFilterLanguage

Det språk som ska användas för ett Snowball-tokenfilter.

StemmerOverrideTokenFilter

Ger möjlighet att åsidosätta andra ordstamsfilter med anpassad ordlistebaserad ordstamsigenkänning. Alla termer som härstammar från ordböcker kommer att markeras som nyckelord så att de inte kommer att hejdas av stemmers längre ner i kedjan. Måste placeras före eventuella stämplingsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

StemmerTokenFilter

Språkspecifikt ordstamsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

StemmerTokenFilterLanguage

Det språk som ska användas för ett stemmer-tokenfilter.

StopAnalyzer

Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Den här analysatorn implementeras med hjälp av Apache Lucene.

StopwordsList

Identifierar en fördefinierad lista med språkspecifika stoppord.

StopwordsTokenFilter

Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Suggester

Definierar hur Suggest-API:et ska gälla för en grupp fält i indexet.

SuggesterSearchMode

Ett värde som anger förslagsställarens funktioner.

SynonymTokenFilter

Matchar synonymer med ett eller flera ord i en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

TagScoringFunction

Definierar en funktion som ökar poängen för dokument med strängvärden som matchar en viss lista med taggar.

TagScoringParameters

Tillhandahåller parametervärden till en taggbedömningsfunktion.

TextWeights

Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.

TokenCharacterKind

Representerar klasser av tecken som ett tokenfilter kan användas på.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

TruncateTokenFilter

Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

UaxUrlEmailTokenizer

Tokeniserar webbadresser och e-postmeddelanden som en token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

UniqueTokenFilter

Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

VectorEncodingFormat

Kodningsformatet för tolkning av vektorfältinnehåll.

VectorSearch

Innehåller konfigurationsalternativ relaterade till vektorsökning.

VectorSearchAlgorithmKind

Algoritmen som används för indexering och frågor.

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på.

VectorSearchCompressionKind

Den komprimeringsmetod som används för indexering och frågor.

VectorSearchCompressionRescoreStorageMethod

Lagringsmetoden för de ursprungliga vektorerna med full precision som används för ompoängning och interna indexåtgärder.

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

VectorSearchProfile

Definierar en kombination av konfigurationer som ska användas med vektorsökning.

VectorSearchVectorizerKind

Den vektoriseringsmetod som ska användas under frågetiden.

WebApiParameters

Anger egenskaperna för anslutning till en användardefinierad vektoriserare.

WebApiVectorizer

Anger en användardefinierad vektoriserare för att generera vektorinbäddningen av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.

WordDelimiterTokenFilter

Delar upp ord i underord och utför valfria omvandlingar på underordsgrupper. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

AsciiFoldingTokenFilter

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

preserveOriginal

boolean

False

Ett värde som anger om den ursprungliga token kommer att behållas. Standardvärdet är false.

AzureActiveDirectoryApplicationCredentials

Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.

Name Typ Description
applicationId

string

Ett AAD-program-ID som har beviljats de åtkomstbehörigheter som krävs för att Azure Key Vault ska användas när du krypterar dina vilande data. Program-ID:t ska inte förväxlas med objekt-ID:t för ditt AAD-program.

applicationSecret

string

Autentiseringsnyckeln för det angivna AAD-programmet.

AzureOpenAIEmbeddingSkill

Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen.

Name Typ Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Ett URI-fragment som anger typen av färdighet.

apiKey

string

API-nyckel för den angivna Azure OpenAI-resursen.

authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar.

context

string

Representerar den nivå på vilken åtgärder utförs, till exempel dokumentets rot eller dokumentinnehåll (till exempel /document eller /document/content). Standardvärdet är /document.

deploymentId

string

ID för Azure OpenAI-modelldistributionen på den angivna resursen.

description

string

Beskrivningen av färdigheten som beskriver indata, utdata och användning av färdigheten.

dimensions

integer (int32)

Antalet dimensioner som resulterande inbäddningar av utdata ska ha. Stöds endast i text-embedding-3 och senare modeller.

inputs

InputFieldMappingEntry[]

Indata för färdigheterna kan vara en kolumn i källdatauppsättningen eller utdata från en överordnad färdighet.

modelName

AzureOpenAIModelName

Namnet på inbäddningsmodellen som distribueras på den angivna deploymentId-sökvägen.

name

string

Namnet på färdigheten som unikt identifierar den i kompetensuppsättningen. En färdighet utan definierat namn får ett standardnamn för dess 1-baserade index i kompetensmatrisen, med prefixet "#".

outputs

OutputFieldMappingEntry[]

Utdata från en färdighet är antingen ett fält i ett sökindex eller ett värde som kan användas som indata av en annan färdighet.

resourceUri

string (uri)

Resurs-URI:n för Azure OpenAI-resursen.

AzureOpenAIModelName

Namnet på Azure Open AI-modellen som ska anropas.

Värde Description
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Anger parametrarna för att ansluta till Azure OpenAI-resursen.

Name Typ Description
apiKey

string

API-nyckel för den angivna Azure OpenAI-resursen.

authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar.

deploymentId

string

ID för Azure OpenAI-modelldistributionen på den angivna resursen.

modelName

AzureOpenAIModelName

Namnet på inbäddningsmodellen som distribueras på den angivna deploymentId-sökvägen.

resourceUri

string (uri)

Resurs-URI:n för Azure OpenAI-resursen.

AzureOpenAIVectorizer

Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.

Name Typ Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Innehåller de parametrar som är specifika för Azure OpenAI-inbäddningsvektorisering.

kind string:

azureOpenAI

Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med just den här vektoriseringsmetoden.

BinaryQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för komprimeringsmetoden för binär kvantisering som används vid indexering och frågor.

Name Typ Description
kind string:

binaryQuantization

Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

rescoringOptions

RescoringOptions

Innehåller alternativ för ompoängning.

truncationDimension

integer (int32)

Antalet dimensioner som vektorerna ska trunkeras till. Genom att trunkera vektorerna minskar storleken på vektorerna och mängden data som behöver överföras under sökningen. Detta kan spara lagringskostnader och förbättra sökprestanda på bekostnad av träffsäkerhet. Den bör endast användas för inbäddningar som tränats med Matrjosjka Representation Learning (MRL), till exempel OpenAI text-embedding-3-large (small). Standardvärdet är null, vilket innebär att det inte finns någon trunkering.

BM25Similarity

Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som inkluderar längdnormalisering (styrs av parametern "b") samt termfrekvensmättnad (styrs av parametern "k1").

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Den här egenskapen styr hur längden på ett dokument påverkar relevanspoängen. Som standard används värdet 0,75. Värdet 0,0 innebär att ingen längdnormalisering tillämpas, medan värdet 1,0 innebär att poängen är helt normaliserad av dokumentets längd.

k1

number (double)

Den här egenskapen styr skalningsfunktionen mellan termfrekvensen för varje matchande termer och den slutliga relevanspoängen för ett dokumentfrågepar. Som standard används värdet 1,2. Värdet 0,0 innebär att poängen inte skalas med en ökning av termfrekvensen.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Värde Description
html_strip

Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Bildar bigram med CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skripten som ska ignoreras.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

outputUnigrams

boolean

False

Ett värde som anger om både unigram och bigram ska matas ut (om det är sant) eller bara bigram (om det är falskt). Standardvärdet är false.

CjkBigramTokenFilterScripts

Skript som kan ignoreras av CjkBigramTokenFilter.

Värde Description
han

Ignorera Han-skript när du skapar bigram av CJK-termer.

hiragana

Ignorera hiragana-skrift när du bildar bigram av CJK-termer.

katakana

Ignorera Katakana-skrift när du skapar bigram av CJK-termer.

hangul

Ignorera Hangul-skrift när du bildar bigram av CJK-termer.

ClassicSimilarity

Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta dokument på europeiska språk. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Ett URI-fragment som anger typen av tokeniserare.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

CommonGramTokenFilter

Skapa bigram för ofta förekommande termer vid indexering. Enskilda termer indexeras också fortfarande, med bigram överlappande. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

commonWords

string[]

Uppsättningen med vanliga ord.

ignoreCase

boolean

False

Ett värde som anger om matchning av vanliga ord inte är skiftlägeskänsligt. Standardvärdet är false.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

queryMode

boolean

False

Ett värde som anger om tokenfiltret är i frågeläge. I frågeläge genererar tokenfiltret bigram och tar sedan bort vanliga ord och enskilda termer följt av ett vanligt ord. Standardvärdet är false.

CorsOptions

Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index.

Name Typ Description
allowedOrigins

string[]

Listan över ursprung som JavaScript-koden ska beviljas åtkomst till ditt index från. Kan innehålla en lista över värdar i formatet {protocol}://{fully-qualified-domain-name}[:{port#}], eller en enda "*" för att tillåta alla ursprung (rekommenderas inte).

maxAgeInSeconds

integer (int64)

Den varaktighet under vilken webbläsare ska cachelagra CORS-preflight-svar. Standardvärdet är 5 minuter.

CustomAnalyzer

Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokeniserare och ett eller flera filter. Tokeniseraren ansvarar för att dela upp text i token och filtren för att ändra token som genereras av tokeniseraren.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Ett URI-fragment som anger typen av analysator.

charFilters

CharFilterName[]

En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas av tokeniseraren. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas.

name

string

Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

tokenFilters

TokenFilterName[]

En lista över tokenfilter som används för att filtrera bort eller ändra de token som genereras av en tokeniserare. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas.

tokenizer

LexicalTokenizerName

Namnet på tokeniseraren som ska användas för att dela upp kontinuerlig text i en sekvens med token, till exempel att dela upp en mening i ord.

CustomNormalizer

Gör att du kan konfigurera normalisering för filtrerbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Ett URI-fragment som anger typen av normaliserare.

charFilters

CharFilterName[]

En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas.

name

string

Namnet på normaliseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken. Det får inte sluta med ".microsoft" eller ".lucene" och inte heller heta "asciifolding", "standard", "gemener", "versaler" eller "elision".

tokenFilters

TokenFilterName[]

En lista över tokenfilter som används för att filtrera bort eller ändra indatatoken. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas.

DictionaryDecompounderTokenFilter

Bryter ner sammansatta ord som finns i många germanska språk. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

maxSubwordSize

integer (int32)

maximum: 300
15

Den maximala storleken för underord. Endast underord som är kortare än detta matas ut. Standardvärdet är 15. Maxvärdet är 300.

minSubwordSize

integer (int32)

maximum: 300
2

Minsta storlek på underord. Endast underord som är längre än detta matas ut. Standardvärdet är 2. Maxvärdet är 300.

minWordSize

integer (int32)

maximum: 300
5

Minsta ordstorlek. Endast ord som är längre än så bearbetas. Standardvärdet är 5. Maxvärdet är 300.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

onlyLongestMatch

boolean

False

Ett värde som anger om du bara vill lägga till det längsta matchande underordet i utdata. Standardvärdet är false.

wordList

string[]

Listan med ord som ska matchas mot.

DistanceScoringFunction

Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.

Name Typ Description
boost

number (double)

En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0.

distance

DistanceScoringParameters

Parametervärden för funktionen för avståndspoängsättning.

fieldName

string

Namnet på det fält som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär".

type string:

distance

Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener.

DistanceScoringParameters

Tillhandahåller parametervärden till en funktion för avståndsbedömning.

Name Typ Description
boostingDistance

number (double)

Avståndet i kilometer från referensplatsen där förstärkningsområdet slutar.

referencePointParameter

string

Namnet på parametern som skickas i sökfrågor för att ange referensplatsen.

EdgeNGramTokenFilter

Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

maxGram

integer (int32)

2

Den maximala längden på n-grammet. Standardvärdet är 2.

minGram

integer (int32)

1

Minsta längd på n-gram. Standard är 1. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

side

EdgeNGramTokenFilterSide

front

Anger vilken sida av indata n-grammet ska genereras från. Standard är "front".

EdgeNGramTokenFilterSide

Anger vilken sida av indata ett n-gram ska genereras från.

Värde Description
front

Anger att n-grammet ska genereras från indatans framsida.

back

Anger att n-grammet ska genereras från baksidan av indata.

EdgeNGramTokenFilterV2

Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Ett URI-fragment som anger typen av tokenfilter.

maxGram

integer (int32)

maximum: 300
2

Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer (int32)

maximum: 300
1

Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

side

EdgeNGramTokenFilterSide

front

Anger vilken sida av indata n-grammet ska genereras från. Standard är "front".

EdgeNGramTokenizer

Tokeniserar indata från en kant till n-gram av den angivna storleken. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Ett URI-fragment som anger typen av tokeniserare.

maxGram

integer (int32)

maximum: 300
2

Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer (int32)

maximum: 300
1

Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

tokenChars

TokenCharacterKind[]

Teckenklasser som ska behållas i tokens.

ElisionTokenFilter

Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

articles

string[]

Den uppsättning artiklar som ska tas bort.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

Name Typ Description
info

object

Ytterligare information.

type

string

Ytterligare informationstyp.

ErrorDetail

Felinformationen.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Ytterligare information om felet.

code

string

Felkoden.

details

ErrorDetail[]

Felinformationen.

message

string

Felmeddelandet.

target

string

Felmålet.

ErrorResponse

Felsvar

Name Typ Description
error

ErrorDetail

Felobjektet.

ExhaustiveKnnParameters

Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen.

Name Typ Description
metric

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den omfattande KNN-algoritmen som används vid frågor, som utför brute force-sökning över hela vektorindexet.

Name Typ Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Innehåller de parametrar som är specifika för den uttömmande KNN-algoritmen.

kind string:

exhaustiveKnn

Namnet på den typ av algoritm som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

FreshnessScoringFunction

Definierar en funktion som ökar poängen baserat på värdet i ett datum/tid-fält.

Name Typ Description
boost

number (double)

En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på det fält som används som indata till bedömningsfunktionen.

freshness

FreshnessScoringParameters

Parametervärden för funktionen för färskhetsbedömning.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär".

type string:

freshness

Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener.

FreshnessScoringParameters

Tillhandahåller parametervärden till en funktion för färskhetsbedömning.

Name Typ Description
boostingDuration

string (duration)

Förfalloperioden efter vilken förstärkningen stoppas för ett visst dokument.

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

Name Typ Standardvärde Description
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Storleken på den dynamiska listan som innehåller de närmaste grannarna, som används under indexeringstiden. Om du ökar den här parametern kan indexkvaliteten förbättras på bekostnad av ökad indexeringstid. Vid en viss punkt leder en ökning av denna parameter till minskande avkastning.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Storleken på den dynamiska listan som innehåller de närmaste grannarna, som används under söktiden. Om du ökar den här parametern kan sökresultaten förbättras på bekostnad av långsammare sökning. Vid en viss punkt leder en ökning av denna parameter till minskande avkastning.

m

integer (int32)

minimum: 4
maximum: 10
4

Antalet dubbelriktade länkar som skapas för varje nytt element under konstruktionen. Att öka det här parametervärdet kan förbättra träffsäkerheten och minska hämtningstiderna för datauppsättningar med hög inneboende dimensionalitet på bekostnad av ökad minnesförbrukning och längre indexeringstid.

metric

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser.

HnswVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för algoritmen HNSW för ungefärliga närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar avvägning mellan sökhastighet och noggrannhet.

Name Typ Description
hnswParameters

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

kind string:

hnsw

Namnet på den typ av algoritm som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

InputFieldMappingEntry

Mappning av inmatningsfält för en färdighet.

Name Typ Description
inputs

InputFieldMappingEntry[]

Rekursiva indata som används när du skapar en komplex typ.

name

string

Namnet på indata.

source

string

Källan till indata.

sourceContext

string

Källkontexten som används för att välja rekursiva indata.

KeepTokenFilter

Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

keepWords

string[]

Listan över ord som ska behållas.

keepWordsCase

boolean

False

Ett värde som anger om alla ord ska skrivas med gemener först. Standardvärdet är false.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

KeywordMarkerTokenFilter

Markerar termer som nyckelord. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

ignoreCase

boolean

False

Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false.

keywords

string[]

En lista med ord som ska markeras som nyckelord.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

KeywordTokenizer

Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Ett URI-fragment som anger typen av tokeniserare.

bufferSize

integer (int32)

256

Storleken på läsbufferten i byte. Standardvärdet är 256.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

KeywordTokenizerV2

Genererar hela indata som en enda token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Ett URI-fragment som anger typen av tokeniserare.

maxTokenLength

integer (int32)

maximum: 300
256

Den maximala tokenlängden. Standardvärdet är 256. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

LengthTokenFilter

Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

max

integer (int32)

maximum: 300
300

Den maximala längden i tecken. Standard och maximum är 300.

min

integer (int32)

maximum: 300
0

Den minsta längden i tecken. Standardvärdet är 0. Maxvärdet är 300. Måste vara mindre än värdet för max.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Värde Description
ar.microsoft

Microsoft Analyzer för arabiska.

ar.lucene

Lucene-analysator för arabiska.

hy.lucene

Lucene-analysator för armeniska.

bn.microsoft

Microsoft-analysator för Bangla.

eu.lucene

Lucene analysator för baskiska.

bg.microsoft

Microsoft analyzer för bulgariska.

bg.lucene

Lucene-analysator för bulgariska.

ca.microsoft

Microsoft Analyzer för katalanska.

ca.lucene

Lucene-analysator för katalanska.

zh-Hans.microsoft

Microsoft Analyzer för kinesiska (förenklad).

zh-Hans.lucene

Lucene-analysator för kinesiska (förenklad).

zh-Hant.microsoft

Microsoft Analyzer för kinesiska (traditionell).

zh-Hant.lucene

Lucene-analysator för kinesiska (traditionell).

hr.microsoft

Microsoft analyzer för kroatiska.

cs.microsoft

Microsoft analyzer för tjeckiska.

cs.lucene

Lucene-analysator för tjeckiska.

da.microsoft

Microsoft analyzer för danska.

da.lucene

Lucene-analysator för danska.

nl.microsoft

Microsoft Analyzer för nederländska.

nl.lucene

Lucene-analysator för nederländska.

en.microsoft

Microsoft Analyzer för engelska.

en.lucene

Lucene-analysator för engelska.

et.microsoft

Microsoft analyzer för estniska.

fi.microsoft

Microsoft analyzer för finska.

fi.lucene

Lucene-analysator för finska.

fr.microsoft

Microsoft Analyzer för franska.

fr.lucene

Lucene-analysator för franska.

gl.lucene

Lucene-analysator för galiciska.

de.microsoft

Microsoft Analyzer för tyska.

de.lucene

Lucene-analysator för tyska.

el.microsoft

Microsoft Analyzer för grekiska.

el.lucene

Lucene-analysator för grekiska.

gu.microsoft

Microsoft analyzer för Gujarati.

he.microsoft

Microsoft Analyzer för hebreiska.

hi.microsoft

Microsoft Analyzer för hindi.

hi.lucene

Lucene-analysator för hindi.

hu.microsoft

Microsoft analyzer för ungerska.

hu.lucene

Lucene-analysator för ungerska.

is.microsoft

Microsoft Analyzer för isländska.

id.microsoft

Microsoft Analyzer för indonesiska (Bahasa).

id.lucene

Lucene-analysator för indonesiska.

ga.lucene

Lucene-analysator för irländska.

it.microsoft

Microsoft analyzer för italienska.

it.lucene

Lucene-analysator för italienska.

ja.microsoft

Microsoft Analyzer för japanska.

ja.lucene

Lucene-analysator för japanska.

kn.microsoft

Microsoft analyzer för Kannada.

ko.microsoft

Microsoft Analyzer för koreanska.

ko.lucene

Lucene-analysator för koreanska.

lv.microsoft

Microsoft analyzer för lettiska.

lv.lucene

Lucene-analysator för lettiska.

lt.microsoft

Microsoft analyzer för litauiska.

ml.microsoft

Microsoft analyzer för malayalam.

ms.microsoft

Microsoft analyzer för malajiska (latin).

mr.microsoft

Microsoft Analyzer för Marathi.

nb.microsoft

Microsoft analyzer för norska (bokmål).

no.lucene

Lucene-analysator för norska.

fa.lucene

Lucene-analysator för persiska.

pl.microsoft

Microsoft Analyzer för polska.

pl.lucene

Lucene-analysator för polska.

pt-BR.microsoft

Microsoft Analyzer för portugisiska (Brasilien).

pt-BR.lucene

Lucene-analysator för portugisiska (Brasilien).

pt-PT.microsoft

Microsoft analyzer för portugisiska (Portugal).

pt-PT.lucene

Lucene-analysator för portugisiska (Portugal).

pa.microsoft

Microsoft-analysator för Punjabi.

ro.microsoft

Microsoft analyzer för rumänska.

ro.lucene

Lucene-analysator för rumänska.

ru.microsoft

Microsoft Analyzer för ryska.

ru.lucene

Lucene-analysator för ryska.

sr-cyrillic.microsoft

Microsoft analyzer för serbiska (kyrillisk).

sr-latin.microsoft

Microsoft analyzer för serbiska (latin).

sk.microsoft

Microsoft analyzer för slovakiska.

sl.microsoft

Microsoft Analyzer för slovenska.

es.microsoft

Microsoft Analyzer för spanska.

es.lucene

Lucene-analysator för spanska.

sv.microsoft

Microsoft analyzer för svenska.

sv.lucene

Lucene analysator för svenska.

ta.microsoft

Microsoft Analyzer för tamil.

te.microsoft

Microsoft analyzer för Telugu.

th.microsoft

Microsoft Analyzer för thailändska.

th.lucene

Lucene-analysator för thailändska.

tr.microsoft

Microsoft-analysator för turkiska.

tr.lucene

Lucene-analysator för turkiska.

uk.microsoft

Microsoft Analyzer för ukrainska.

ur.microsoft

Microsoft analyzer för urdu.

vi.microsoft

Microsoft Analyzer för vietnamesiska.

standard.lucene

Lucene-analysator som standard.

standardasciifolding.lucene

Standard ASCII vikning Lucene-analysator. Se https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, id:n och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

En analysator som använder blankstegstokeniserare. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definierar namnen på alla textnormaliserare som stöds av sökmotorn.

Värde Description
asciifolding

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standardnormaliserare, som består av gemener och asciifolding. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definierar namnen på alla tokeniserare som stöds av sökmotorn.

Värde Description
classic

Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta dokument på europeiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokeniserar indata från en kant till n-gram av den angivna storleken. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Delar upp text vid icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Delar upp text med hjälp av språkspecifika regler.

microsoft_language_stemming_tokenizer

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras grundformer.

nGram

Tokeniserar indata i n-gram av den angivna storleken/storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standard Lucene-analysator; Består av standardtokeniserare, filter med gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokeniserar webbadresser och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Delar upp text vid blanksteg. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

consumeAllTokens

boolean

False

Ett värde som anger om alla token från indata måste förbrukas även om maxTokenCount har nåtts. Standardvärdet är false.

maxTokenCount

integer (int32)

1

Det maximala antalet token som ska produceras. Standard är 1.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

LuceneStandardAnalyzer

Standard Apache Lucene-analysator; Består av standardtokeniserare, filter med gemener och stoppfilter.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Ett URI-fragment som anger typen av analysator.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

stopwords

string[]

En lista med stoppord.

LuceneStandardTokenizer

Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Ett URI-fragment som anger typen av tokeniserare.

maxTokenLength

integer (int32)

255

Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

LuceneStandardTokenizerV2

Bryter text enligt reglerna för textsegmentering i Unicode. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Ett URI-fragment som anger typen av tokeniserare.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

MagnitudeScoringFunction

Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.

Name Typ Description
boost

number (double)

En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på det fält som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär".

magnitude

MagnitudeScoringParameters

Parametervärden för storleksbedömningsfunktionen.

type string:

magnitude

Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener.

MagnitudeScoringParameters

Tillhandahåller parametervärden till en storleksbedömningsfunktion.

Name Typ Description
boostingRangeEnd

number (double)

Fältvärdet där förstärkningen slutar.

boostingRangeStart

number (double)

Fältvärdet som boostingen startar vid.

constantBoostBeyondRange

boolean

Ett värde som anger om en konstant ökning av fältvärden ska tillämpas utöver intervallets slutvärde. Standardvärdet är false.

MappingCharFilter

Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en given tidpunkt vinner). Ersättning får vara den tomma strängen. Det här teckenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Ett URI-fragment som anger typen av teckenfilter.

mappings

string[]

En lista med mappningar i följande format: "a=>b" (alla förekomster av tecknet "a" ersätts med tecknet "b").

name

string

Namnet på teckenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

MicrosoftLanguageStemmingTokenizer

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras grundformer.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Ett URI-fragment som anger typen av tokeniserare.

isSearchTokenizer

boolean

False

Ett värde som anger hur tokeniseraren används. Ange till true om det används som söktokeniserare, ange till false om det används som indexeringstokeniserare. Standardvärdet är false.

language

MicrosoftStemmingTokenizerLanguage

Vilket språk som ska användas. Standardvärdet är engelska.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Token som är längre än den maximala längden delas. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token baserat på den maximala tokenlängd som angetts. Standardvärdet är 255.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

MicrosoftLanguageTokenizer

Delar upp text med hjälp av språkspecifika regler.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Ett URI-fragment som anger typen av tokeniserare.

isSearchTokenizer

boolean

False

Ett värde som anger hur tokeniseraren används. Ange till true om det används som söktokeniserare, ange till false om det används som indexeringstokeniserare. Standardvärdet är false.

language

MicrosoftTokenizerLanguage

Vilket språk som ska användas. Standardvärdet är engelska.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Token som är längre än den maximala längden delas. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token baserat på den maximala tokenlängd som angetts. Standardvärdet är 255.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

MicrosoftStemmingTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts tokenisering för språkstamsigenkänning.

Värde Description
arabic

Väljer Microsofts tokeniserare för ordstamsigenkänning för arabiska.

bangla

Väljer Microsofts tokenizer för ordstamsigenkänning för Bangla.

bulgarian

Väljer Microsofts tokeniserare för ordstamsigenkänning för bulgariska.

catalan

Väljer Microsofts tokeniserare för ordstamsigenkänning för katalanska.

croatian

Väljer Microsofts tokeniserare för ordstamsigenkänning för kroatiska.

czech

Väljer Microsofts tokeniserare för ordstamsigenkänning för tjeckiska.

danish

Väljer Microsofts tokeniserare för ordstamsigenkänning för danska.

dutch

Väljer Microsofts tokeniserare för ordstamsigenkänning för nederländska.

english

Väljer Microsofts tokeniserare för ordstamsigenkänning för engelska.

estonian

Väljer Microsofts tokenizer för ordstamsigenkänning för estniska.

finnish

Väljer Microsofts tokeniserare för ordstamsigenkänning för finska.

french

Väljer Microsofts tokeniserare för ordstamsigenkänning för franska.

german

Väljer Microsofts tokeniserare för ordstamsigenkänning för tyska.

greek

Väljer Microsofts tokeniserare för ordstamsigenkänning för grekiska.

gujarati

Väljer Microsofts tokenizer för ordstamsigenkänning för Gujarati.

hebrew

Väljer Microsofts tokeniserare för ordstamsigenkänning för hebreiska.

hindi

Väljer Microsofts tokeniserare för ordstamsigenkänning för hindi.

hungarian

Väljer Microsofts tokeniserare för ordstamsigenkänning för ungerska.

icelandic

Väljer Microsofts tokeniserare för ordstamsigenkänning för isländska.

indonesian

Väljer Microsofts tokeniserare för ordstamsigenkänning för indonesiska.

italian

Väljer Microsofts tokeniserare för ordstamsigenkänning för italienska.

kannada

Väljer Microsofts tokeniserare för ordstamsigenkänning för Kannada.

latvian

Väljer Microsofts tokenizer för ordstamsigenkänning för lettiska.

lithuanian

Väljer Microsofts tokeniserare för ordstamsigenkänning för litauiska.

malay

Väljer Microsofts tokeniserare för ordstamsigenkänning för malajiska.

malayalam

Väljer Microsofts tokeniserare för ordstamsigenkänning för malayalam.

marathi

Väljer Microsofts tokeniserare för ordstamsigenkänning för marathi.

norwegianBokmaal

Väljer Microsofts tokeniserare för ordstamsigenkänning för norska (bokmål).

polish

Väljer Microsofts tokeniserare för ordstamsigenkänning för polska.

portuguese

Väljer Microsofts tokeniserare för ordstamsigenkänning för portugisiska.

portugueseBrazilian

Väljer Microsofts tokeniserare för ordstamsigenkänning för portugisiska (Brasilien).

punjabi

Väljer Microsofts tokeniserare för ordstamsigenkänning för punjabi.

romanian

Väljer Microsofts tokeniserare för ordstamsigenkänning för rumänska.

russian

Väljer Microsofts tokeniserare för ordstamsigenkänning för ryska.

serbianCyrillic

Väljer Microsofts tokeniserare för ordstamsigenkänning för serbiska (kyrillisk).

serbianLatin

Väljer Microsofts tokeniserare för ordstamsigenkänning för serbiska (latinsk).

slovak

Väljer Microsofts tokeniserare för ordstamsigenkänning för slovakiska.

slovenian

Väljer Microsofts tokeniserare för ordstamsigenkänning för slovenska.

spanish

Väljer Microsofts tokeniserare för ordstamsigenkänning för spanska.

swedish

Väljer Microsofts tokenizer för ordstamsigenkänning för svenska.

tamil

Väljer Microsofts tokeniserare för ordstamsigenkänning för tamil.

telugu

Väljer Microsofts tokeniserare för ordstamsigenkänning för Telugu.

turkish

Väljer Microsofts tokeniserare för ordstamsigenkänning för turkiska.

ukrainian

Väljer Microsofts tokeniserare för ordstamsigenkänning för ukrainska.

urdu

Väljer Microsofts tokenizer för ordstamsigenkänning för urdu.

MicrosoftTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts språktokeniserare.

Värde Description
bangla

Väljer Microsoft-tokeniserare för Bangla.

bulgarian

Väljer Microsoft-tokeniserare för bulgariska.

catalan

Väljer Microsoft-tokeniserare för katalanska.

chineseSimplified

Väljer Microsoft-tokeniserare för kinesiska (förenklad).

chineseTraditional

Väljer Microsoft-tokeniserare för kinesiska (traditionell).

croatian

Väljer Microsoft-tokeniserare för kroatiska.

czech

Väljer Microsoft-tokeniserare för tjeckiska.

danish

Väljer Microsoft-tokeniserare för danska.

dutch

Väljer Microsoft-tokeniserare för nederländska.

english

Väljer Microsoft-tokeniserare för engelska.

french

Väljer Microsoft-tokeniserare för franska.

german

Väljer Microsoft-tokeniserare för tyska.

greek

Väljer Microsoft-tokeniserare för grekiska.

gujarati

Väljer Microsoft-tokeniserare för Gujarati.

hindi

Väljer Microsoft-tokeniserare för hindi.

icelandic

Väljer Microsoft-tokeniserare för isländska.

indonesian

Väljer Microsoft-tokeniserare för indonesiska.

italian

Väljer Microsoft-tokeniserare för italienska.

japanese

Väljer Microsoft-tokeniserare för japanska.

kannada

Väljer Microsoft-tokeniserare för Kannada.

korean

Väljer Microsoft-tokeniserare för koreanska.

malay

Väljer Microsoft-tokeniserare för malajiska.

malayalam

Väljer Microsoft-tokeniserare för malayalam.

marathi

Väljer Microsoft-tokeniserare för marathi.

norwegianBokmaal

Väljer Microsoft-tokeniserare för norska (bokmål).

polish

Väljer Microsoft-tokeniserare för polska.

portuguese

Väljer Microsoft-tokeniserare för portugisiska.

portugueseBrazilian

Väljer Microsoft-tokeniserare för portugisiska (Brasilien).

punjabi

Väljer Microsoft-tokeniserare för Punjabi.

romanian

Väljer Microsoft-tokeniserare för rumänska.

russian

Väljer Microsoft-tokeniserare för ryska.

serbianCyrillic

Väljer Microsoft-tokeniserare för serbiska (kyrillisk).

serbianLatin

Väljer Microsoft-tokeniserare för serbiska (latin).

slovenian

Väljer Microsoft-tokeniserare för slovenska.

spanish

Väljer Microsoft-tokeniserare för spanska.

swedish

Väljer Microsoft-tokeniserare för svenska.

tamil

Väljer Microsoft-tokeniserare för tamil.

telugu

Väljer Microsoft-tokeniseraren för Telugu.

thai

Väljer Microsoft-tokeniserare för thailändska.

ukrainian

Väljer Microsoft-tokeniserare för ukrainska.

urdu

Väljer Microsoft-tokeniseraren för urdu.

vietnamese

Väljer Microsoft-tokeniserare för vietnamesiska.

NGramTokenFilter

Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

maxGram

integer (int32)

2

Den maximala längden på n-grammet. Standardvärdet är 2.

minGram

integer (int32)

1

Minsta längd på n-gram. Standard är 1. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

NGramTokenFilterV2

Genererar n-gram av den angivna storleken/storlekarna. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Ett URI-fragment som anger typen av tokenfilter.

maxGram

integer (int32)

maximum: 300
2

Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer (int32)

maximum: 300
1

Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

NGramTokenizer

Tokeniserar indata i n-gram av den angivna storleken/storlekarna. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Ett URI-fragment som anger typen av tokeniserare.

maxGram

integer (int32)

maximum: 300
2

Den maximala längden på n-grammet. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer (int32)

maximum: 300
1

Minsta längd på n-gram. Standard är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

tokenChars

TokenCharacterKind[]

Teckenklasser som ska behållas i tokens.

OutputFieldMappingEntry

Mappning av utdatafält för en färdighet.

Name Typ Description
name

string

Namnet på utdata som definieras av färdigheten.

targetName

string

Målnamnet för utdata. Det är valfritt och standardvärdet är namn.

PathHierarchyTokenizerV2

Tokenizer för sökvägsliknande hierarkier. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Ett URI-fragment som anger typen av tokeniserare.

delimiter

string (char)

/

Det avgränsningstecken som ska användas. Standardvärdet är "/".

maxTokenLength

integer (int32)

maximum: 300
300

Den maximala tokenlängden. Standard och maximum är 300.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

replacement

string (char)

/

Ett värde som, om det anges, ersätter avgränsningstecknet. Standardvärdet är "/".

reverse

boolean

False

Ett värde som anger om token ska genereras i omvänd ordning. Standardvärdet är false.

skip

integer (int32)

0

Antalet inledande token som ska hoppas över. Standardvärdet är 0.

PatternAnalyzer

Separerar text i termer på ett flexibelt sätt via ett mönster för reguljära uttryck. Den här analysatorn implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Ett URI-fragment som anger typen av analysator.

flags

RegexFlags

Flaggor för reguljära uttryck.

lowercase

boolean

True

Ett värde som anger om termer ska vara gemener. Standardvärdet är sant.

name

string

Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

pattern

string

\W+

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera tecken som inte är ord.

stopwords

string[]

En lista med stoppord.

PatternCaptureTokenFilter

Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

patterns

string[]

En lista över mönster som ska matchas mot varje token.

preserveOriginal

boolean

True

Ett värde som anger om den ursprungliga token ska returneras även om något av mönstren matchar. Standardvärdet är sant.

PatternReplaceCharFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här teckenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Ett URI-fragment som anger typen av teckenfilter.

name

string

Namnet på teckenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

pattern

string

Ett mönster för reguljära uttryck.

replacement

string

Den ersatta texten.

PatternReplaceTokenFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Den använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Till exempel, med indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2", skulle resultatet bli "aa#bb aa#bb". Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

pattern

string

Ett mönster för reguljära uttryck.

replacement

string

Den ersatta texten.

PatternTokenizer

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Ett URI-fragment som anger typen av tokeniserare.

flags

RegexFlags

Flaggor för reguljära uttryck.

group

integer (int32)

-1

Den nollbaserade ordningstalet för den matchande gruppen i mönstret för reguljära uttryck som ska extraheras till token. Använd -1 om du vill använda hela mönstret för att dela upp indata i token, oavsett matchande grupper. Standardvärdet är -1.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

pattern

string

\W+

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera tecken som inte är ord.

PhoneticEncoder

Identifierar vilken typ av fonetisk kodare som ska användas med en PhoneticTokenFilter.

Värde Description
metaphone

Kodar en token till ett metafonvärde.

doubleMetaphone

Kodar en token till ett dubbelt metafonvärde.

soundex

Kodar en token till ett Soundex-värde.

refinedSoundex

Kodar en token till ett Refined Soundex-värde.

caverphone1

Kodar en token till ett Caverphone 1.0-värde.

caverphone2

Kodar en token till ett Caverphone 2.0-värde.

cologne

Kodar en token till ett fonetiskt värde i Köln.

nysiis

Kodar en token till ett NYSIIS-värde.

koelnerPhonetik

Kodar en token med hjälp av Kölner Phonetik-algoritmen.

haasePhonetik

Kodar en token med hjälp av Haase-förfiningen av Kölner Phonetik-algoritmen.

beiderMorse

Kodar en token till ett Beider-Morse värde.

PhoneticTokenFilter

Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

encoder

PhoneticEncoder

metaphone

Den fonetiska kodare som ska användas. Standard är "metafon".

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

replace

boolean

True

Ett värde som anger om kodade token ska ersätta ursprungliga token. Om det är falskt läggs kodade token till som synonymer. Standardvärdet är sant.

PrioritizedFields

Beskriver fälten titel, innehåll och nyckelord som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar.

Name Typ Description
prioritizedContentFields

SemanticField[]

Definierar de innehållsfält som ska användas för semantisk rangordning, undertexter, höjdpunkter och svar. För bästa resultat bör de markerade fälten innehålla text i naturlig språkform. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt.

prioritizedKeywordsFields

SemanticField[]

Definierar de nyckelordsfält som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar. För bästa resultat bör de markerade fälten innehålla en lista med nyckelord. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt.

titleField

SemanticField

Definierar titelfältet som ska användas för semantisk rangordning, bildtexter, markeringar och svar. Om du inte har något titelfält i indexet lämnar du det tomt.

RankingOrder

Representerar poäng som ska användas för sorteringsordning för dokument.

Värde Description
BoostedRerankerScore

Ställer in sorteringsordningen som BoostedRerankerScore

RerankerScore

Ställer in sorteringsordning som ReRankerScore

RegexFlags

Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysatorn och mönstertokeniseraren.

Värde Description
CANON_EQ

Möjliggör kanonisk ekvivalens.

CASE_INSENSITIVE

Möjliggör skiftlägesokänslig matchning.

COMMENTS

Tillåter blanksteg och kommentarer i mönstret.

DOTALL

Aktiverar dotall-läge.

LITERAL

Aktiverar literal parsning av mönstret.

MULTILINE

Aktiverar flerradsläge.

UNICODE_CASE

Möjliggör Unicode-medveten ärendevikning.

UNIX_LINES

Aktiverar Unix-linjeläge.

RescoringOptions

Innehåller alternativ för ompoängning.

Name Typ Standardvärde Description
defaultOversampling

number (double)

Standardfaktor för översampling. Översampling hämtar en större uppsättning potentiella dokument för att kompensera för upplösningsförlusten på grund av kvantisering. Detta ökar uppsättningen resultat som ska poängsättas på nytt på vektorer med full precision. Minsta värde är 1, vilket innebär ingen översampling (1x). Den här parametern kan bara anges när "enableRescoring" är sant. Högre värden förbättrar träffsäkerheten på bekostnad av svarstiden.

enableRescoring

boolean

True

Om värdet är true, efter den första sökningen på de komprimerade vektorerna, beräknas likhetspoängen om med hjälp av vektorerna med full precision. Detta förbättrar träffsäkerheten på bekostnad av svarstiden.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Styr lagringsmetoden för ursprungliga vektorer. Den här inställningen är oföränderlig.

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för skalär kvantisering.

Name Typ Description
quantizedDataType

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

ScalarQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetoden som används vid indexering och frågor.

Name Typ Description
kind string:

scalarQuantization

Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

rescoringOptions

RescoringOptions

Innehåller alternativ för ompoängning.

scalarQuantizationParameters

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för skalär kvantisering.

truncationDimension

integer (int32)

Antalet dimensioner som vektorerna ska trunkeras till. Genom att trunkera vektorerna minskar storleken på vektorerna och mängden data som behöver överföras under sökningen. Detta kan spara lagringskostnader och förbättra sökprestanda på bekostnad av träffsäkerhet. Den bör endast användas för inbäddningar som tränats med Matrjosjka Representation Learning (MRL), till exempel OpenAI text-embedding-3-large (small). Standardvärdet är null, vilket innebär att det inte finns någon trunkering.

ScoringFunctionAggregation

Definierar den aggregeringsfunktion som används för att kombinera resultaten av alla bedömningsfunktioner i en bedömningsprofil.

Värde Description
sum

Öka poängen med summan av alla resultat från bedömningsfunktionen.

average

Öka poängen med medelvärdet av alla poängsättningsfunktionsresultat.

minimum

Öka poängen med ett minimum av alla poängsättningsfunktionsresultat.

maximum

Öka poängen med det maximala av alla poängsättningsfunktionsresultat.

firstMatching

Öka poängen med hjälp av den första tillämpliga poängsättningsfunktionen i bedömningsprofilen.

ScoringFunctionInterpolation

Definierar den funktion som används för att interpolera poängökning i en rad dokument.

Värde Description
linear

Ökar poängen med ett linjärt minskande belopp. Det här är standardinterpolationen för bedömningsfunktioner.

constant

Ökar poängen med en konstant faktor.

quadratic

Ökar poängen med ett belopp som minskar kvadratiskt. Boostar minskar långsamt för högre poäng och snabbare när poängen minskar. Det här interpolationsalternativet är inte tillåtet i taggbedömningsfunktioner.

logarithmic

Ökar poängen med ett belopp som minskar logaritmiskt. Boostar minskar snabbt för högre poäng och långsammare när poängen minskar. Det här interpolationsalternativet är inte tillåtet i taggbedömningsfunktioner.

ScoringProfile

Definierar parametrar för ett sökindex som påverkar poängsättningen i sökfrågor.

Name Typ Description
functionAggregation

ScoringFunctionAggregation

Ett värde som anger hur resultaten av enskilda poängsättningsfunktioner ska kombineras. Standardvärdet är "Summa". Ignoreras om det inte finns några poängsättningsfunktioner.

functions ScoringFunction[]:

Samlingen av funktioner som påverkar poängsättningen av dokument.

name

string

Namnet på bedömningsprofilen.

text

TextWeights

Parametrar som ökar poängsättningen baserat på textmatchningar i vissa indexfält.

SearchField

Representerar ett fält i en indexdefinition, som beskriver namnet, datatypen och sökfunktionen för ett fält.

Name Typ Description
analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för fältet. Det här alternativet kan bara användas med sökbara fält och det kan inte anges tillsammans med antingen searchAnalyzer eller indexAnalyzer. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Dimensionaliteten för vektorfältet.

facetable

boolean

Ett värde som anger om fältet ska kunna refereras till i fasettfrågor. Används vanligtvis i en presentation av sökresultat som inkluderar antal träffar per kategori (till exempel söka efter digitalkameror och se träffar efter varumärke, megapixlar, pris och så vidare). Den här egenskapen måste vara null för komplexa fält. Fält av typen Edm.GeographyPoint eller Collection(Edm.GeographyPoint) kan inte vara fasettbara. Standardvärdet är true för alla andra enkla fält.

fields

SearchField[]

En lista med underfält om det här är ett fält av typen Edm.ComplexType eller Collection(Edm.ComplexType). Måste vara null eller tomt för enkla fält.

filterable

boolean

Ett värde som anger om fältet ska aktiveras som referens i $filter frågor. Filtrerbar skiljer sig från sökbar i hur strängar hanteras. Fält av typen Edm.String eller Collection(Edm.String) som är filtrerbara genomgår inte ordbrytning, så jämförelser är endast för exakta matchningar. Till exempel, om du ställer in ett sådant fält f till "solig dag" kommer $filter=f eq 'solig' inte att hitta några matchningar, men $filter=f eq 'solig dag' kommer att göra det. Den här egenskapen måste vara null för komplexa fält. Standardvärdet är true för enkla fält och null för komplexa fält.

indexAnalyzer

LexicalAnalyzerName

Namnet på analysatorn som används vid indexeringen för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med searchAnalyzer och den kan inte anges tillsammans med analyzer-alternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. Använd egenskapen Analyzer i stället om du behöver ett språkanalysverktyg. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält.

key

boolean

Ett värde som anger om fältet unikt identifierar dokument i indexet. Exakt ett fält på den översta nivån i varje index måste väljas som nyckelfält och det måste vara av typen Edm.String. Nyckelfält kan användas för att söka efter dokument direkt och uppdatera eller ta bort specifika dokument. Standardvärdet är false för enkla fält och null för komplexa fält.

name

string

Namnet på fältet, som måste vara unikt i fältsamlingen för indexet eller det överordnade fältet.

normalizer

LexicalNormalizerName

Namnet på den normaliserare som ska användas för fältet. Det här alternativet kan endast användas med fält som är filtrerbara, sorterbara eller fasettbara aktiverade. När normaliseraren har valts kan den inte ändras för fältet. Måste vara null för komplexa fält.

retrievable

boolean

Ett värde som anger om fältet kan returneras i ett sökresultat. Du kan inaktivera det här alternativet om du vill använda ett fält (till exempel marginal) som en filter-, sorterings- eller bedömningsmekanism men inte vill att fältet ska vara synligt för slutanvändaren. Den här egenskapen måste vara true för nyckelfält och den måste vara null för komplexa fält. Den här egenskapen kan ändras i befintliga fält. Om du aktiverar den här egenskapen ökar inte kraven på indexlagring. Standardvärdet är true för enkla fält, false för vektorfält och null för komplexa fält.

searchAnalyzer

LexicalAnalyzerName

Namnet på analysatorn som används vid söktillfället för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med indexAnalyzer och den kan inte anges tillsammans med analyzer-alternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. Använd egenskapen Analyzer i stället om du behöver ett språkanalysverktyg. Den här analysatorn kan uppdateras i ett befintligt fält. Måste vara null för komplexa fält.

searchable

boolean

Ett värde som anger om fältet är sökbart i fulltext. Det innebär att den kommer att genomgå analys, till exempel ordbrytning under indexering. Om du ställer in ett sökbart fält till ett värde som "solig dag" kommer det internt att delas upp i de enskilda tokenerna "soligt" och "dag". Detta möjliggör fulltextsökningar för dessa termer. Fält av typen Edm.String eller Collection(Edm.String) är sökbara som standard. Den här egenskapen måste vara false för enkla fält av andra datatyper som inte är strängar, och den måste vara null för komplexa fält. Sökbara fält tar upp extra utrymme i indexet för att hantera ytterligare tokeniserade versioner av fältvärdet för fulltextsökningar. Om du vill spara utrymme i indexet och du inte vill att ett fält ska ingå i sökningar anger du sökbar till falskt.

sortable

boolean

Ett värde som anger om fältet ska kunna refereras till i $orderby uttryck. Som standard sorterar sökmotorn resultat efter poäng, men i många fall vill användarna sortera efter fält i dokumenten. Ett enkelt fält kan bara sorteras om det har ett enkelvärde (det har ett enda värde i omfånget för det överordnade dokumentet). Enkla samlingsfält kan inte sorteras eftersom de har flera värden. Enkla underfält i komplexa samlingar har också flera värden och kan därför inte sorteras. Detta gäller oavsett om det är ett omedelbart överordnat fält eller ett överordnat fält, som är den komplexa samlingen. Komplexa fält kan inte sorteras och egenskapen sortable måste vara null för sådana fält. Standardvärdet för sorterbar är true för enkla fält med ett värde, false för enkla fält med flera värden och null för komplexa fält.

stored

boolean

Ett oföränderligt värde som anger om fältet ska sparas separat på disken för att returneras i ett sökresultat. Du kan inaktivera det här alternativet om du inte planerar att returnera fältinnehållet i ett söksvar för att spara på lagringskostnaderna. Detta kan endast anges när index skapas och endast för vektorfält. Den här egenskapen kan inte ändras för befintliga fält eller anges som falsk för nya fält. Om den här egenskapen är inställd på false måste egenskapen "retrievable" också anges till false. Den här egenskapen måste vara true eller unset för nyckelfält, för nya fält och för icke-vektorfält, och den måste vara null för komplexa fält. Om du inaktiverar den här egenskapen minskar kraven på indexlagring. Standardvärdet är true för vektorfält.

synonymMaps

string[]

En lista över namnen på synonymkartor som ska associeras med det här fältet. Det här alternativet kan endast användas med sökbara fält. För närvarande stöds endast en synonymkarta per fält. Om du tilldelar en synonymkarta till ett fält ser du till att frågetermer som riktar sig mot det fältet expanderas vid frågetillfället med hjälp av reglerna i synonymkartan. Det här attributet kan ändras i befintliga fält. Måste vara null eller en tom samling för komplexa fält.

type

SearchFieldDataType

Fältets datatyp.

vectorEncoding

VectorEncodingFormat

Kodningsformatet för att tolka fältinnehållet.

vectorSearchProfile

string

Namnet på den vektorsökningsprofil som anger vilken algoritm och vektoriserare som ska användas vid sökning i vektorfältet.

SearchFieldDataType

Definierar datatypen för ett fält i ett sökindex.

Värde Description
Edm.String

Anger att ett fält innehåller en sträng.

Edm.Int32

Anger att ett fält innehåller ett 32-bitars heltal med tecken.

Edm.Int64

Anger att ett fält innehåller ett 64-bitars heltal med tecken.

Edm.Double

Anger att ett fält innehåller ett IEEE-flyttal med dubbel precision.

Edm.Boolean

Anger att ett fält innehåller ett booleskt värde (sant eller falskt).

Edm.DateTimeOffset

Anger att ett fält innehåller ett datum-/tidsvärde, inklusive tidszonsinformation.

Edm.GeographyPoint

Anger att ett fält innehåller en geografisk plats i form av longitud och latitud.

Edm.ComplexType

Anger att ett fält innehåller ett eller flera komplexa objekt som i sin tur har underfält av andra typer.

Edm.Single

Anger att ett fält innehåller ett flyttalsnummer med enkel precision. Detta är endast giltigt när det används med Collection(Edm.Single).

Edm.Half

Anger att ett fält innehåller ett flyttalsnummer med halv precision. Detta är endast giltigt när det används med Collection(Edm.Half).

Edm.Int16

Anger att ett fält innehåller ett 16-bitars heltal med tecken. Detta är endast giltigt när det används med Collection(Edm.Int16).

Edm.SByte

Anger att ett fält innehåller ett 8-bitars heltal med tecken. Detta är endast giltigt när det används med Collection(Edm.SByte).

Edm.Byte

Anger att ett fält innehåller ett 8-bitars heltal utan tecken. Detta är endast giltigt när det används med Collection(Edm.Byte).

SearchIndex

Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.

Name Typ Description
@odata.etag

string

ETag för indexet.

analyzers LexicalAnalyzer[]:

Analysverktygen för indexet.

charFilters CharFilter[]:

Teckenfiltren för indexet.

corsOptions

CorsOptions

Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet.

defaultScoringProfile

string

Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf).

description

string

En beskrivning av indexet.

encryptionKey

SearchResourceEncryptionKey

En beskrivning av en krypteringsnyckel som du skapar i Azure 密钥保管库. Den här nyckeln används för att ge ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data kommer de alltid att förbli krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina uppgifter kommer inte att påverkas. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare.

fields

SearchField[]

Fälten i indexet.

name

string

Namnet på indexet.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normaliserarna för indexet.

scoringProfiles

ScoringProfile[]

Bedömningsprofilerna för indexet.

semantic

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

similarity Similarity:

Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när indexet skapas och kan inte ändras på befintliga index. Om värdet är null används algoritmen ClassicSimilarity.

suggesters

Suggester[]

Förslagsställarna för indexet.

tokenFilters TokenFilter[]:

Token filtreras efter indexet.

tokenizers LexicalTokenizer[]:

Tokeniserarna för indexet.

vectorSearch

VectorSearch

Innehåller konfigurationsalternativ relaterade till vektorsökning.

SearchIndexerDataNoneIdentity

Rensar identitetsegenskapen för en datakälla.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Ett URI-fragment som anger typen av identitet.

SearchIndexerDataUserAssignedIdentity

Anger identiteten för en datakälla som ska användas.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Ett URI-fragment som anger typen av identitet.

userAssignedIdentity

string

Det fullständigt kvalificerade Azure-resurs-ID:t för en användartilldelad hanterad identitet, vanligtvis i formatet "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" som skulle ha tilldelats till söktjänsten.

SearchResourceEncryptionKey

En kundhanterad krypteringsnyckel i Azure 密钥保管库. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar.

Name Typ Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Valfria Azure Active Directory-autentiseringsuppgifter som används för att komma åt din Azure Key Vault. Krävs inte om du använder hanterad identitet i stället.

keyVaultKeyName

string

Namnet på din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data.

keyVaultKeyVersion

string

Den version av din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data.

keyVaultUri

string

URI:n för din Azure Key Vault, även kallat DNS-namn, som innehåller nyckeln som ska användas för att kryptera dina vilande data. Ett exempel på en URI kan vara https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner.

Name Typ Description
name

string

Namnet på den semantiska konfigurationen.

prioritizedFields

PrioritizedFields

Beskriver titel-, innehålls- och nyckelordsfälten som ska användas för semantisk rangordning, bildtexter, höjdpunkter och svar. Minst en av de tre underegenskaperna (titleField, prioritizedKeywordsFields och prioritizedContentFields) måste anges.

rankingOrder

RankingOrder

Anger vilken poängtyp som ska användas för sökresultatens sorteringsordning.

SemanticField

Ett fält som används som en del av den semantiska konfigurationen.

Name Typ Description
fieldName

string

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

Name Typ Description
configurations

SemanticConfiguration[]

De semantiska konfigurationerna för indexet.

defaultConfiguration

string

Gör att du kan ange namnet på en semantisk standardkonfiguration i ditt index, vilket gör det valfritt att skicka den vidare som en frågeparameter varje gång.

ShingleTokenFilter

Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

filterToken

string

_

Strängen som ska infogas för varje position där det inte finns någon token. Standard är ett understreck ("_").

maxShingleSize

integer (int32)

minimum: 2
2

Den maximala singelstorleken. Standardvärdet och minimivärdet är 2.

minShingleSize

integer (int32)

minimum: 2
2

Minsta storlek på singel. Standardvärdet och minimivärdet är 2. Måste vara mindre än värdet för maxShingleSize.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

outputUnigrams

boolean

True

Ett värde som anger om utdataströmmen kommer att innehålla indatatoken (unigram) samt bältros. Standardvärdet är sant.

outputUnigramsIfNoShingles

boolean

False

Ett värde som anger om unigram ska matas ut för de tider då inga bältros är tillgängliga. Den här egenskapen har företräde när outputUnigrams är inställt på false. Standardvärdet är false.

tokenSeparator

string

Strängen som ska användas när du sammanfogar intilliggande token för att bilda en singel. Standardvärdet är ett enda blanksteg (" ").

SnowballTokenFilter

Ett filter som stammar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

language

SnowballTokenFilterLanguage

Vilket språk som ska användas.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

SnowballTokenFilterLanguage

Det språk som ska användas för ett Snowball-tokenfilter.

Värde Description
armenian

Väljer Lucene Snowball stemming tokenizer för armeniska.

basque

Väljer Lucene Snowball stemming tokenizer för baskiska.

catalan

Väljer Lucene Snowball stemming tokenizer för katalanska.

danish

Väljer Lucene Snowball stemming tokenizer för danska.

dutch

Väljer Lucene Snowball stemming tokenizer för nederländska.

english

Väljer Lucene Snowball stemming tokenizer för engelska.

finnish

Väljer Lucene Snowball stemming tokenizer för finska.

french

Väljer Lucene Snowball stemming tokenizer för franska.

german

Väljer Lucene Snowball stemming tokenizer för tyska.

german2

Väljer den Lucene Snowball-tokeniserare som använder den tyska variantalgoritmen.

hungarian

Väljer Lucene Snowball stemming tokenizer för ungerska.

italian

Väljer Lucene Snowball stemming tokenizer för italienska.

kp

Väljer Lucene Snowball-tokeniseraren för nederländare som använder algoritmen för Kraaij-Pohlmann härstamning.

lovins

Väljer Lucene Snowball-tokeniseraren för engelsk stamning som använder Lovins algoritm för ordstamning.

norwegian

Väljer Lucene Snowball-tokeniseraren för att härstamma från Norwegian.

porter

Väljer Lucene Snowball stemming tokenizer för engelska som använder Porter stemming-algoritmen.

portuguese

Väljer Lucene Snowball stemming tokenizer för portugisiska.

romanian

Väljer Lucene Snowball stemming tokenizer för rumänska.

russian

Väljer Lucene Snowball stemming tokenizer för ryska.

spanish

Väljer Lucene Snowball stemming tokenizer för spanska.

swedish

Väljer Lucene Snowball stemming tokenizer för svenska.

turkish

Väljer Lucene Snowball-stammens tokenizer för turkiska.

StemmerOverrideTokenFilter

Ger möjlighet att åsidosätta andra ordstamsfilter med anpassad ordlistebaserad ordstamsigenkänning. Alla termer som härstammar från ordböcker kommer att markeras som nyckelord så att de inte kommer att hejdas av stemmers längre ner i kedjan. Måste placeras före eventuella stämplingsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

rules

string[]

En lista med regler för ordstamsigenkänning i följande format: "word => stem", till exempel: "ran => run".

StemmerTokenFilter

Språkspecifikt ordstamsfilter. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

language

StemmerTokenFilterLanguage

Vilket språk som ska användas.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

StemmerTokenFilterLanguage

Det språk som ska användas för ett stemmer-tokenfilter.

Värde Description
arabic

Väljer Lucene-tokeniseraren för avstamning för arabiska.

armenian

Väljer Lucene-stammens tokenizer för armeniska.

basque

Väljer Lucene-tokeniseraren för avstamning för baskiska.

brazilian

Väljer Lucene-tokeniseraren för avstamning för portugisiska (Brasilien).

bulgarian

Väljer Lucene-stammens tokenizer för bulgariska.

catalan

Väljer Lucene-tokeniseraren för härstamning för katalanska.

czech

Väljer Lucene-tokeniseraren för avstamning för tjeckiska.

danish

Väljer Lucene-tokeniseraren för avstamning för danska.

dutch

Väljer Lucene-tokeniseraren för avstamning för nederländska.

dutchKp

Väljer Lucene-tokeniseraren för ordstamsigenkänning för nederländska som använder algoritmen för Kraaij-Pohlmann härstamning.

english

Väljer Lucene-tokeniseraren för avstamning på engelska.

lightEnglish

Väljer Lucene-tokeniseraren för härstamning för engelska som gör lätt stamning.

minimalEnglish

Väljer Lucene stemming-tokeniserare för engelska som gör minimal stemming.

possessiveEnglish

Väljer Lucene-stammens tokenizer för engelska som tar bort avslutande possessiv från ord.

porter2

Väljer Lucene-tokeniseraren för ordstamsigenkänning för engelska som använder algoritmen för ordstamsigenkänning Porter2.

lovins

Väljer Lucene-tokeniseraren för ordstamsigenkänning för engelska som använder algoritmen för Lovins härstamning.

finnish

Väljer Lucene-tokeniseraren för härstamning för finska.

lightFinnish

Väljer Lucene-tokeniseraren för ordstamsigenkänning för finska som gör lätt stamning.

french

Väljer Lucene-tokeniseraren för avstamning för franska.

lightFrench

Väljer Lucene-tokeniseraren för härstamning för franska som gör lätt stamning.

minimalFrench

Väljer Lucene-tokeniseraren för avstamning för franska som utför minimal härstamning.

galician

Väljer Lucene-stammens tokenizer för galiciska.

minimalGalician

Väljer Lucene-tokeniseraren för härstamning för galiciska som gör minimal härstamning.

german

Väljer Lucene-tokeniseraren för avstamning för tyska.

german2

Väljer den Lucene-stammande tokeniserare som använder den tyska variantalgoritmen.

lightGerman

Väljer Lucene-tokeniseraren för ordstamsigenkänning för tyska som gör lätt stamning.

minimalGerman

Väljer Lucene-tokeniseraren för härstamning för tyska som gör minimal härstamning.

greek

Väljer Lucene-stammens tokenizer för grekiska.

hindi

Väljer Lucene-tokeniseraren för avstamning för hindi.

hungarian

Väljer Lucene-stammens tokenizer för ungerska.

lightHungarian

Väljer Lucene-tokeniseraren för stamning för ungerska som gör lätt stamning.

indonesian

Väljer Lucene-stammens tokenizer för indonesiska.

irish

Väljer Lucene-tokeniseraren för härstamning för irländska.

italian

Väljer Lucene-tokeniseraren för härstamning för italienska.

lightItalian

Väljer Lucene-tokeniseraren för härstamning för italienska som gör lätt stamning.

sorani

Väljer Lucene-tokeniseraren för avstamning för Sorani.

latvian

Väljer Lucene-tokeniseraren för avstamning för lettiska.

norwegian

Väljer Lucene-tokeniseraren för avledning för norska (bokmål).

lightNorwegian

Väljer Lucene-tokeniseraren för härstamning för norska (bokmål) som använder lätt stamning.

minimalNorwegian

Väljer Lucene-tokenisering för härstamning för norska (bokmål) som gör minimal härstamning.

lightNynorsk

Väljer Lucene-tokeniseraren för härstamning för norska (nynorsk) som gör lätt stamning.

minimalNynorsk

Väljer Lucene-tokeniseraren för härstamning för norska (nynorsk) som gör minimal härstamning.

portuguese

Väljer Lucene-tokeniseraren för avstamning för portugisiska.

lightPortuguese

Väljer Lucene-tokeniseraren för ordstamsigenkänning för portugisiska som gör lätt stamning.

minimalPortuguese

Väljer Lucene stemming-tokenizer för portugisiska som gör minimal stamning.

portugueseRslp

Väljer Lucene-tokeniseraren för ordstamsigenkänning för portugisiska som använder RSLP-algoritmen för härstamning.

romanian

Väljer Lucene-stammens tokenizer för rumänska.

russian

Väljer Lucene-stammens tokenizer för ryska.

lightRussian

Väljer Lucene-stammens tokenizer för ryska som gör lätt stamning.

spanish

Väljer Lucene-tokeniseraren för avstamning för spanska.

lightSpanish

Väljer Lucene-tokeniseraren för stamning för spanska som gör lätt stamning.

swedish

Väljer Lucene-stammens tokenizer för svenska.

lightSwedish

Väljer Lucene stemming tokenizer för svenska som gör light stemming.

turkish

Väljer Lucene-stammens tokenizer för turkiska.

StopAnalyzer

Delar upp text vid icke-bokstäver; Använder tokenfiltren gemener och stoppord. Den här analysatorn implementeras med hjälp av Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Ett URI-fragment som anger typen av analysator.

name

string

Namnet på analysatorn. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

stopwords

string[]

En lista med stoppord.

StopwordsList

Identifierar en fördefinierad lista med språkspecifika stoppord.

Värde Description
arabic

Markerar stoppordslistan för arabiska.

armenian

Markerar stoppordslistan för armeniska.

basque

Markerar stoppordslistan för baskiska.

brazilian

Markerar stoppordslistan för portugisiska (Brasilien).

bulgarian

Markerar stoppordslistan för bulgariska.

catalan

Markerar stoppordslistan för katalanska.

czech

Markerar stoppordslistan för tjeckiska.

danish

Markerar stoppordslistan för danska.

dutch

Markerar stoppordslistan för nederländska.

english

Väljer stoppordslista för engelska.

finnish

Markerar stoppordslistan för finska.

french

Väljer stoppordslistan för franska.

galician

Markerar stoppordslistan för galiciska.

german

Väljer stoppordslistan för tyska.

greek

Markerar stoppordslistan för grekiska.

hindi

Markerar stoppordslistan för hindi.

hungarian

Markerar stoppordslistan för ungerska.

indonesian

Väljer stoppordslista för indonesiska.

irish

Väljer stoppordslistan för iriska.

italian

Markerar stoppordslistan för italienska.

latvian

Markerar stoppordslistan för lettiska.

norwegian

Markerar stoppordslistan för norska.

persian

Markerar stoppordslistan för persiska.

portuguese

Markerar stoppordslistan för portugisiska.

romanian

Markerar stoppordslistan för rumänska.

russian

Väljer stoppordslistan för ryska.

sorani

Markerar stoppordslistan för Sorani.

spanish

Väljer stoppordslistan för spanska.

swedish

Markerar stoppordslistan för svenskan.

thai

Markerar stoppordslistan för thailändska.

turkish

Markerar stoppordslistan för turkiska.

StopwordsTokenFilter

Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

ignoreCase

boolean

False

Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

removeTrailing

boolean

True

Ett värde som anger om den sista söktermen ska ignoreras om det är ett stoppord. Standardvärdet är sant.

stopwords

string[]

Listan med stoppord. Det går inte att ange både den här egenskapen och egenskapen stopwords list.

stopwordsList

StopwordsList

english

En fördefinierad lista med stoppord som ska användas. Det går inte att ange både den här egenskapen och egenskapen stopwords. Standard är engelska.

Suggester

Definierar hur Suggest-API:et ska gälla för en grupp fält i indexet.

Name Typ Description
name

string

Namnet på förslagsställaren.

searchMode

SuggesterSearchMode

Ett värde som anger förslagsställarens funktioner.

sourceFields

string[]

Listan över fältnamn som förslagsställaren gäller för. Varje fält måste vara sökbart.

SuggesterSearchMode

Ett värde som anger förslagsställarens funktioner.

Värde Description
analyzingInfixMatching

Matchar på varandra följande hela termer och prefix i ett fält. För fältet "Den snabbaste bruna räven" skulle till exempel frågorna "snabb" och "snabbaste brynet" båda matcha.

SynonymTokenFilter

Matchar synonymer med ett eller flera ord i en tokenström. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

expand

boolean

True

Ett värde som anger om alla ord i listan med synonymer (om => notation inte används) kommer att mappas till varandra. Om det är sant kommer alla ord i listan över synonymer (om => notation inte används) att mappas till varandra. Följande lista: otroligt, otroligt, fantastiskt, fantastiskt motsvarar: otroligt, otroligt, fantastiskt, fantastiskt => otroligt, otroligt, fantastiskt, fantastiskt. Om det är falskt kommer följande lista: otroligt, otroligt, fantastiskt, fantastiskt att motsvara: otroligt, otroligt, fantastiskt, fantastiskt => otroligt. Standardvärdet är sant.

ignoreCase

boolean

False

Ett värde som anger om indata ska skiftlägesvikas för matchning. Standardvärdet är false.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

synonyms

string[]

En lista med synonymer i ett av två format: 1. otroligt, otroligt, fantastiskt => fantastiskt - alla termer på vänster sida av => symbolen kommer att ersättas med alla termer på dess högra sida; 2. otroligt, otroligt, fantastiskt, fantastiskt - kommaseparerad lista med motsvarande ord. Ange expanderingsalternativet för att ändra hur den här listan tolkas.

TagScoringFunction

Definierar en funktion som ökar poängen för dokument med strängvärden som matchar en viss lista med taggar.

Name Typ Description
boost

number (double)

En multiplikator för den råa poängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på det fält som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur förstärkningen kommer att interpoleras mellan dokumentpoäng. standardvärdet är "Linjär".

tag

TagScoringParameters

Parametervärden för taggbedömningsfunktionen.

type string:

tag

Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemener.

TagScoringParameters

Tillhandahåller parametervärden till en taggbedömningsfunktion.

Name Typ Description
tagsParameter

string

Namnet på parametern som skickas i sökfrågor för att ange listan med taggar som ska jämföras med målfältet.

TextWeights

Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.

Name Typ Description
weights

object

Ordlistan med vikter per fält för att öka dokumentpoängsättningen. Nycklarna är fältnamn och värdena är vikterna för varje fält.

TokenCharacterKind

Representerar klasser av tecken som ett tokenfilter kan användas på.

Värde Description
letter

Behåller bokstäver i tokens.

digit

Behåller siffror i tokens.

whitespace

Behåller blanksteg i tokens.

punctuation

Behåller skiljetecken i token.

symbol

Behåller symboler i tokens.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Värde Description
arabic_normalization

Ett tokenfilter som använder den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Tar bort alla tecken efter en apostrof (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns bland de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin") till sina ASCII-motsvarigheter, om sådana finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Bildar bigram med CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normaliserar CJK-breddskillnader. Viker ASCII-varianter med full bredd till motsvarande grundläggande latinska och katakana-varianter med halv bredd till motsvarande kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Tar bort engelska possessiv och punkter från akronymer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Skapa bigram för ofta förekommande termer vid indexering. Enskilda termer indexeras också fortfarande, med bigram överlappande. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Genererar n-gram av den angivna storleken med början från framsidan eller baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Tar bort elisioner. Till exempel kommer "l'avion" (planet) att konverteras till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normaliserar tyska tecken enligt heuristiken för snöbollsalgoritmen German2. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Genererar n-gram av den angivna storleken/storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Använder Porter-stamfilmsalgoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer

reverse

Vänder på tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normaliserar användningen av utbytbara skandinaviska tecken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Viker de skandinaviska tecknen åÅäæÄÆ-a> och öÖøØ-o>. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, så att bara den första blir kvar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Ett filter som stammar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Språkspecifikt ordstamsfilter. Se https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Trimmar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Delar upp ord i underord och utför valfria omvandlingar på underordsgrupper.

TruncateTokenFilter

Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

length

integer (int32)

maximum: 300
300

Den längd med vilken termerna ska trunkeras. Standard och maximum är 300.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

UaxUrlEmailTokenizer

Tokeniserar webbadresser och e-postmeddelanden som en token. Den här tokeniseraren implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Ett URI-fragment som anger typen av tokeniserare.

maxTokenLength

integer (int32)

maximum: 300
255

Den maximala tokenlängden. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokeniseraren. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

UniqueTokenFilter

Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

onlyOnSamePosition

boolean

False

Ett värde som anger om dubbletter endast ska tas bort på samma position. Standardvärdet är false.

VectorEncodingFormat

Kodningsformatet för tolkning av vektorfältinnehåll.

Värde Description
packedBit

Kodningsformat som representerar bitar som packats in i en bredare datatyp.

VectorSearch

Innehåller konfigurationsalternativ relaterade till vektorsökning.

Name Typ Description
algorithms VectorSearchAlgorithmConfiguration[]:

Innehåller konfigurationsalternativ som är specifika för den algoritm som används under indexering eller frågor.

compressions VectorSearchCompressionConfiguration[]:

Innehåller konfigurationsalternativ som är specifika för den komprimeringsmetod som används vid indexering eller frågor.

profiles

VectorSearchProfile[]

Definierar kombinationer av konfigurationer som ska användas med vektorsökning.

vectorizers VectorSearchVectorizer[]:

Innehåller konfigurationsalternativ för hur du vektoriserar textvektorfrågor.

VectorSearchAlgorithmKind

Algoritmen som används för indexering och frågor.

Värde Description
hnsw

HNSW (Hierarchical Navigable Small World), en typ av approximativ algoritm för närmaste grannar.

exhaustiveKnn

Uttömmande KNN-algoritm som kommer att utföra brute-force-sökning.

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på.

Värde Description
cosine

Mäter vinkeln mellan vektorer för att kvantifiera deras likhet, utan hänsyn till storlek. Ju mindre vinkeln är, desto närmare blir likheten.

euclidean

Beräknar det rätlinjiga avståndet mellan vektorer i ett flerdimensionellt utrymme. Ju mindre avstånd, desto närmare likhet.

dotProduct

Beräknar summan av elementvisa produkter för att mäta justering och storlekslikhet. Ju större och mer positiv, desto närmare blir likheten.

hamming

Gäller endast för bitpackade binära datatyper. Bestämmer olikhet genom att räkna olika positioner i binära vektorer. Ju färre skillnader, desto närmare blir likheten.

VectorSearchCompressionKind

Den komprimeringsmetod som används för indexering och frågor.

Värde Description
scalarQuantization

Skalär kvantisering, en typ av komprimeringsmetod. Vid skalär kvantisering komprimeras de ursprungliga vektorvärdena till en smalare typ genom att diskretisera och representera varje komponent i en vektor med hjälp av en reducerad uppsättning kvantiserade värden, vilket minskar den totala datastorleken.

binaryQuantization

Binär kvantisering, en typ av komprimeringsmetod. Vid binär kvantisering komprimeras de ursprungliga vektorvärdena till den smalare binära typen genom att diskretisera och representera varje komponent i en vektor med binära värden, vilket minskar den totala datastorleken.

VectorSearchCompressionRescoreStorageMethod

Lagringsmetoden för de ursprungliga vektorerna med full precision som används för ompoängning och interna indexåtgärder.

Värde Description
preserveOriginals

Med det här alternativet bevaras de ursprungliga vektorerna med full precision. Välj det här alternativet om du vill ha maximal flexibilitet och högsta kvalitet på komprimerade sökresultat. Detta förbrukar mer lagringsutrymme men möjliggör ombedömning och översampling.

discardOriginals

Det här alternativet tar bort de ursprungliga vektorerna med full precision. Välj det här alternativet om du vill spara maximalt lagringsutrymme. Eftersom det här alternativet inte tillåter ompoängning och översampling orsakar det ofta små till måttliga kvalitetsminskningar.

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

Värde Description
int8

VectorSearchProfile

Definierar en kombination av konfigurationer som ska användas med vektorsökning.

Name Typ Description
algorithm

string

Namnet på konfigurationen av vektorsökningsalgoritmen som anger algoritmen och valfria parametrar.

compression

string

Namnet på konfigurationen av komprimeringsmetoden som anger komprimeringsmetoden och valfria parametrar.

name

string

Namnet som ska associeras med den här vektorsökningsprofilen.

vectorizer

string

Namnet på vektoriseringen som konfigureras för användning med vektorsökning.

VectorSearchVectorizerKind

Den vektoriseringsmetod som ska användas under frågetiden.

Värde Description
azureOpenAI

Generera inbäddningar med hjälp av en Azure OpenAI-resurs vid frågetillfället.

customWebApi

Generera inbäddningar med hjälp av en anpassad webbslutpunkt vid frågetillfället.

WebApiParameters

Anger egenskaperna för anslutning till en användardefinierad vektoriserare.

Name Typ Description
authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar. Om ett authResourceId anges och det inte anges används den system tilldelade hanterade identiteten. Vid uppdateringar av indexeraren, om identiteten är ospecificerad, förblir värdet oförändrat. Om värdet är "none" rensas värdet för den här egenskapen.

authResourceId

string

Gäller för anpassade slutpunkter som ansluter till extern kod i en Azure-funktion eller något annat program som tillhandahåller transformeringarna. Det här värdet ska vara det program-ID som skapades för funktionen eller appen när den registrerades med Azure Active Directory. När det anges ansluter vektoriseringen till funktionen eller appen med hjälp av ett hanterat ID (antingen system eller användartilldelat) för söktjänsten och åtkomsttoken för funktionen eller appen, med hjälp av det här värdet som resurs-ID för att skapa omfånget för åtkomsttoken.

httpHeaders

object

De huvuden som krävs för att göra HTTP-begäran.

httpMethod

string

Metoden för HTTP-begäran.

timeout

string (duration)

Önskad tidsgräns för begäran. Standardvärdet är 30 sekunder.

uri

string (uri)

URI:n för webb-API:et som tillhandahåller vektoriseraren.

WebApiVectorizer

Anger en användardefinierad vektoriserare för att generera vektorinbäddningen av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.

Name Typ Description
customWebApiParameters

WebApiParameters

Anger egenskaperna för den användardefinierade vektoriseraren.

kind string:

customWebApi

Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med just den här vektoriseringsmetoden.

WordDelimiterTokenFilter

Delar upp ord i underord och utför valfria omvandlingar på underordsgrupper. Det här tokenfiltret implementeras med hjälp av Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Ett URI-fragment som anger typen av tokenfilter.

catenateAll

boolean

False

Ett värde som anger om alla underordsdelar kommer att catenated. Om detta till exempel är inställt på true blir "Azure-Search-1" "AzureSearch1". Standardvärdet är false.

catenateNumbers

boolean

False

Ett värde som anger om maximala körningar av antal delar kommer att catenated. Om detta till exempel är inställt på true blir "1-2" "12". Standardvärdet är false.

catenateWords

boolean

False

Ett värde som anger om maximalt antal körningar av orddelar kommer att catenated. Om detta till exempel är inställt på true blir "Azure-Search" "AzureSearch". Standardvärdet är false.

generateNumberParts

boolean

True

Ett värde som anger om numeriska underord ska genereras. Standardvärdet är sant.

generateWordParts

boolean

True

Ett värde som anger om delord ska genereras. Om den är inställd, gör att delar av ord genereras; Till exempel blir "AzureSearch" "Azure", "Search". Standardvärdet är sant.

name

string

Namnet på tokenfiltret. Det får bara innehålla bokstäver, siffror, mellanslag, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsat till 128 tecken.

preserveOriginal

boolean

False

Ett värde som anger om de ursprungliga orden kommer att bevaras och läggas till i underordslistan. Standardvärdet är false.

protectedWords

string[]

En lista över token som ska skyddas från att avgränsas.

splitOnCaseChange

boolean

True

Ett värde som anger om ord ska delas upp i caseChange. Om detta till exempel är inställt på true blir "AzureSearch" "Azure" "Search". Standardvärdet är sant.

splitOnNumerics

boolean

True

Ett värde som anger om du vill dela upp på tal. Om detta till exempel är inställt på true blir "Azure1Search" "Azure" "1" "Search". Standardvärdet är sant.

stemEnglishPossessive

boolean

True

Ett värde som anger om avslutande "s" ska tas bort för varje underord. Standardvärdet är sant.