你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Indexes - Create

服务:: Search Service

API 版本:: 2025-09-01

创建新的搜索索引。

POST {endpoint}/indexes?api-version=2025-09-01

URI 参数

名称	在	必需	类型	说明
endpoint	path	True	string	搜索服务的终结点 URL。
api-version	query	True	string	客户端 API 版本。

请求头

名称	必需	类型	说明
x-ms-client-request-id		string (uuid)	随请求一起发送的跟踪 ID，以帮助调试。

请求正文

名称	必需	类型	说明
fields	True	SearchField[]	索引的字段。
name	True	string	索引的名称。
@odata.etag		string	索引的 ETag。
analyzers		LexicalAnalyzer[]: CustomAnalyzer[] PatternAnalyzer[] LuceneStandardAnalyzer[] StopAnalyzer[]	索引的分析器。
charFilters		CharFilter[]: MappingCharFilter[] PatternReplaceCharFilter[]	索引的字符筛选器。
corsOptions		CorsOptions	用于控制索引的跨域资源共享（CORS）的选项。
defaultScoringProfile		string	如果查询中未指定任何评分配置文件，则要使用的评分配置文件的名称。如果未设置此属性，并且在查询中未指定评分配置文件，则将使用默认评分（tf-idf）。
description		string	索引的描述。
encryptionKey		SearchResourceEncryptionKey	在 Azure Key Vault 中创建的加密密钥的说明。当你希望完全保证没有人（甚至 Microsoft）无法解密你的数据时，此密钥用于为数据提供额外的静态加密级别。加密数据后，它将始终保持加密状态。搜索服务将忽略将此属性设置为 null 的尝试。如果要轮换加密密钥，可以根据需要更改此属性;您的数据将不受影响。使用客户管理的密钥进行加密不适用于免费搜索服务，仅适用于 2019 年 1 月 1 日或之后创建的付费服务。
normalizers		LexicalNormalizer[]: CustomNormalizer[]	索引的规范化器。
scoringProfiles		ScoringProfile[]	索引的评分配置文件。
semantic		SemanticSettings	定义影响语义功能的搜索索引的参数。
similarity		Similarity: ClassicSimilarity BM25Similarity	对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。相似性算法只能在索引创建时定义，不能在现有索引上进行修改。如果为 null，则使用 ClassicSimilarity 算法。
suggesters		Suggester[]	索引的建议。
tokenFilters		TokenFilter[]: AsciiFoldingTokenFilter[] CjkBigramTokenFilter[] CommonGramTokenFilter[] DictionaryDecompounderTokenFilter[] EdgeNGramTokenFilter[] EdgeNGramTokenFilterV2[] ElisionTokenFilter[] KeepTokenFilter[] KeywordMarkerTokenFilter[] LengthTokenFilter[] LimitTokenFilter[] NGramTokenFilter[] NGramTokenFilterV2[] PatternCaptureTokenFilter[] PatternReplaceTokenFilter[] PhoneticTokenFilter[] ShingleTokenFilter[] SnowballTokenFilter[] StemmerTokenFilter[] StemmerOverrideTokenFilter[] StopwordsTokenFilter[] SynonymTokenFilter[] TruncateTokenFilter[] UniqueTokenFilter[] WordDelimiterTokenFilter[]	索引的令牌筛选器。
tokenizers		LexicalTokenizer[]: ClassicTokenizer[] EdgeNGramTokenizer[] KeywordTokenizer[] KeywordTokenizerV2[] MicrosoftLanguageTokenizer[] MicrosoftLanguageStemmingTokenizer[] NGramTokenizer[] PathHierarchyTokenizerV2[] PatternTokenizer[] LuceneStandardTokenizer[] LuceneStandardTokenizerV2[] UaxUrlEmailTokenizer[]	索引的分词器。
vectorSearch		VectorSearch	包含与矢量搜索相关的配置选项。

响应

名称	类型	说明
201 Created	SearchIndex
Other Status Codes	ErrorResponse	错误响应。

示例

SearchServiceCreateIndex

示例请求

HTTP

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

示例响应

状态代码:: 201

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

定义

名称	说明
AsciiFoldingTokenFilter	将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。此令牌过滤器是使用 Apache Lucene 实现的。
AzureActiveDirectoryApplicationCredentials	为搜索服务创建的已注册应用程序的凭据，用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。
AzureOpenAIEmbeddingSkill	允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。
AzureOpenAIModelName	将调用的 Azure Open AI 模型名称。
AzureOpenAIParameters	指定用于连接到 Azure OpenAI 资源的参数。
AzureOpenAIVectorizer	指定用于矢量化查询字符串的 Azure OpenAI 资源。
BinaryQuantizationVectorSearchCompressionConfiguration	包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。
BM25Similarity	基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法，包括长度归一化（由“b”参数控制）以及项频率饱和度（由“k1”参数控制）。
CharFilterName	定义搜索引擎支持的所有字符过滤器的名称。
CjkBigramTokenFilter	形成从标准分词器生成的 CJK 术语的二元组。此令牌过滤器是使用 Apache Lucene 实现的。
CjkBigramTokenFilterScripts	CjkBigramTokenFilter 可以忽略的脚本。
ClassicSimilarity	使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。
ClassicTokenizer	基于语法的分词器，适用于处理大多数欧洲语言文档。此分词器是使用 Apache Lucene 实现的。
CommonGramTokenFilter	在索引时为频繁出现的术语构造二元组。单个术语也仍然被索引，双元组叠加。此令牌过滤器是使用 Apache Lucene 实现的。
CorsOptions	定义用于控制索引的跨域资源共享（CORS）的选项。
CustomAnalyzer	允许您控制将文本转换为可索引/可搜索标记的过程。它是一个用户定义的配置，由单个预定义分词器和一个或多个过滤器组成。分词器负责将文本分解为标记，过滤器负责修改分词器发出的标记。
CustomNormalizer	允许您为可过滤、可排序和可分面字段配置规范化，默认情况下，这些字段以严格匹配的方式运行。这是一个用户定义的配置，由至少一个或多个过滤器组成，这些过滤器修改存储的令牌。
DictionaryDecompounderTokenFilter	分解许多日耳曼语言中的复合词。此令牌过滤器是使用 Apache Lucene 实现的。
DistanceScoringFunction	定义一个函数，该函数根据与地理位置的距离提高分数。
DistanceScoringParameters	为距离评分函数提供参数值。
EdgeNGramTokenFilter	从输入标记的前面或背面开始生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。
EdgeNGramTokenFilterSide	指定应从输入的哪一侧生成 n-gram。
EdgeNGramTokenFilterV2	从输入标记的前面或背面开始生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。
EdgeNGramTokenizer	将来自边的输入标记为给定大小的 n 克。此分词器是使用 Apache Lucene 实现的。
ElisionTokenFilter	删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。此令牌过滤器是使用 Apache Lucene 实现的。
ErrorAdditionalInfo	资源管理错误附加信息。
ErrorDetail	错误详细信息。
ErrorResponse	错误响应
ExhaustiveKnnParameters	包含特定于穷尽 KNN 算法的参数。
ExhaustiveKnnVectorSearchAlgorithmConfiguration	包含特定于查询期间使用的详尽 KNN 算法的配置选项，该算法将对整个向量索引执行暴力搜索。
FreshnessScoringFunction	定义一个函数，该函数根据日期时间字段的值提高分数。
FreshnessScoringParameters	为新鲜度评分函数提供参数值。
HnswParameters	包含特定于 HNSW 算法的参数。
HnswVectorSearchAlgorithmConfiguration	包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。
InputFieldMappingEntry	技能的输入字段映射。
KeepTokenFilter	一种令牌筛选器，仅保留指定单词列表中包含文本的令牌。此令牌过滤器是使用 Apache Lucene 实现的。
KeywordMarkerTokenFilter	将术语标记为关键字。此令牌过滤器是使用 Apache Lucene 实现的。
KeywordTokenizer	将整个输入作为单个标记发出。此分词器是使用 Apache Lucene 实现的。
KeywordTokenizerV2	将整个输入作为单个标记发出。此分词器是使用 Apache Lucene 实现的。
LengthTokenFilter	删除太长或太短的单词。此令牌过滤器是使用 Apache Lucene 实现的。
LexicalAnalyzerName	定义搜索引擎支持的所有文本分析器的名称。
LexicalNormalizerName	定义搜索引擎支持的所有文本规范化器的名称。
LexicalTokenizerName	定义搜索引擎支持的所有分词器的名称。
LimitTokenFilter	限制索引时的令牌数量。此令牌过滤器是使用 Apache Lucene 实现的。
LuceneStandardAnalyzer	标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。
LuceneStandardTokenizer	按照 Unicode 文本分段规则中断文本。此分词器是使用 Apache Lucene 实现的。
LuceneStandardTokenizerV2	按照 Unicode 文本分段规则中断文本。此分词器是使用 Apache Lucene 实现的。
MagnitudeScoringFunction	定义一个函数，该函数根据数值字段的大小提高分数。
MagnitudeScoringParameters	为幅度评分函数提供参数值。
MappingCharFilter	应用使用 mappings 选项定义的映射的字符过滤器。匹配是贪婪的（在给定点上最长的模式匹配获胜）。允许替换为空字符串。此字符过滤器是使用 Apache Lucene 实现的。
MicrosoftLanguageStemmingTokenizer	使用特定于语言的规则划分文本，并将单词简化为基本形式。
MicrosoftLanguageTokenizer	使用特定于语言的规则划分文本。
MicrosoftStemmingTokenizerLanguage	列出 Microsoft 语言词干提取器支持的语言。
MicrosoftTokenizerLanguage	列出 Microsoft 语言分词器支持的语言。
NGramTokenFilter	生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。
NGramTokenFilterV2	生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。
NGramTokenizer	将输入标记为给定大小的 n 克。此分词器是使用 Apache Lucene 实现的。
OutputFieldMappingEntry	技能的输出字段映射。
PathHierarchyTokenizerV2	用于类似路径的层次结构的分词器。此分词器是使用 Apache Lucene 实现的。
PatternAnalyzer	通过正则表达式模式灵活地将文本分隔为术语。此分析器是使用 Apache Lucene 实现的。
PatternCaptureTokenFilter	使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。此令牌过滤器是使用 Apache Lucene 实现的。
PatternReplaceCharFilter	替换输入字符串中字符的字符筛选器。它使用正则表达式来标识要保留的字符序列，并使用替换模式来标识要替换的字符。例如，给定输入文本“aa bb aa bb”、模式“（aa）\s+（bb）”和替换“$1#$2”，结果将是“aa#bb aa#bb”。此字符过滤器是使用 Apache Lucene 实现的。
PatternReplaceTokenFilter	替换输入字符串中字符的字符筛选器。它使用正则表达式来标识要保留的字符序列，并使用替换模式来标识要替换的字符。例如，给定输入文本“aa bb aa bb”、模式“（aa）\s+（bb）”和替换“$1#$2”，结果将是“aa#bb aa#bb”。此令牌过滤器是使用 Apache Lucene 实现的。
PatternTokenizer	使用正则表达式模式匹配来构造不同标记的标记器。此分词器是使用 Apache Lucene 实现的。
PhoneticEncoder	标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。
PhoneticTokenFilter	为语音匹配创建标记。此令牌过滤器是使用 Apache Lucene 实现的。
PrioritizedFields	描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。
RankingOrder	表示用于文档排序顺序的分数。
RegexFlags	定义可以组合的标志，以控制正则表达式在模式分析器和模式分词器中的使用方式。
RescoringOptions	包含重新评分的选项。
ScalarQuantizationParameters	包含特定于标量量化的参数。
ScalarQuantizationVectorSearchCompressionConfiguration	包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。
ScoringFunctionAggregation	定义用于组合评分配置文件中所有评分函数的结果的聚合函数。
ScoringFunctionInterpolation	定义用于在一系列文档中插值分数提升的函数。
ScoringProfile	定义影响搜索查询评分的搜索索引的参数。
SearchField	表示索引定义中的字段，该字段描述字段的名称、数据类型和搜索行为。
SearchFieldDataType	定义搜索索引中字段的数据类型。
SearchIndex	表示搜索索引定义，它描述索引的字段和搜索行为。
SearchIndexerDataNoneIdentity	清除数据源的标识属性。
SearchIndexerDataUserAssignedIdentity	指定要使用的数据源的标识。
SearchResourceEncryptionKey	Azure Key Vault 中的客户管理的加密密钥。创建和管理的密钥可用于加密或解密静态数据，例如索引和同义词映射。
SemanticConfiguration	定义要在语义功能上下文中使用的特定配置。
SemanticField	用作语义配置一部分的字段。
SemanticSettings	定义影响语义功能的搜索索引的参数。
ShingleTokenFilter	将令牌组合创建为单个令牌。此令牌过滤器是使用 Apache Lucene 实现的。
SnowballTokenFilter	使用 Snowball 生成的词干分析器对单词进行词干的筛选器。此令牌过滤器是使用 Apache Lucene 实现的。
SnowballTokenFilterLanguage	用于 Snowball 令牌筛选器的语言。
StemmerOverrideTokenFilter	提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。任何词干词干术语都将被标记为关键字，这样它们就不会被链下游的词干分析器所用词干词干处理。必须放置在任何词干过滤器之前。此令牌过滤器是使用 Apache Lucene 实现的。
StemmerTokenFilter	特定于语言的词干筛选器。此令牌过滤器是使用 Apache Lucene 实现的。
StemmerTokenFilterLanguage	用于词干分析器标记筛选器的语言。
StopAnalyzer	在非字母处划分文本;应用小写和停用词标记筛选器。此分析器是使用 Apache Lucene 实现的。
StopwordsList	标识特定于语言的停用词的预定义列表。
StopwordsTokenFilter	从标记流中删除停用词。此令牌过滤器是使用 Apache Lucene 实现的。
Suggester	定义建议 API 应如何应用于索引中的一组字段。
SuggesterSearchMode	指示建议器功能的值。
SynonymTokenFilter	匹配令牌流中的单个或多个单词同义词。此令牌过滤器是使用 Apache Lucene 实现的。
TagScoringFunction	定义一个函数，用于提升字符串值与给定标记列表匹配的文档的分数。
TagScoringParameters	为标记评分函数提供参数值。
TextWeights	定义索引字段的权重，这些匹配项应提高搜索查询中的评分。
TokenCharacterKind	表示令牌筛选器可以作的字符类。
TokenFilterName	定义搜索引擎支持的所有令牌过滤器的名称。
TruncateTokenFilter	将项截断为特定长度。此令牌过滤器是使用 Apache Lucene 实现的。
UaxUrlEmailTokenizer	将 url 和电子邮件标记为一个标记。此分词器是使用 Apache Lucene 实现的。
UniqueTokenFilter	过滤掉与前一个标记具有相同文本的标记。此令牌过滤器是使用 Apache Lucene 实现的。
VectorEncodingFormat	用于解释向量字段内容的编码格式。
VectorSearch	包含与矢量搜索相关的配置选项。
VectorSearchAlgorithmKind	用于索引和查询的算法。
VectorSearchAlgorithmMetric	用于向量比较的相似度指标。建议选择与训练嵌入模型相同的相似性指标。
VectorSearchCompressionKind	用于索引和查询的压缩方法。
VectorSearchCompressionRescoreStorageMethod	用于重新评分和内部索引作的原始全精度向量的存储方法。
VectorSearchCompressionTargetDataType	压缩向量值的量化数据类型。
VectorSearchProfile	定义要与矢量搜索一起使用的配置组合。
VectorSearchVectorizerKind	查询时要使用的矢量化方法。
WebApiParameters	指定用于连接到用户定义矢量化器的属性。
WebApiVectorizer	指定用户定义的矢量化器，用于生成查询字符串的矢量嵌入。外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。
WordDelimiterTokenFilter	将单词拆分为子词，并对子词组执行可选转换。此令牌过滤器是使用 Apache Lucene 实现的。

AsciiFoldingTokenFilter

Object

将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.AsciiFoldingTokenFilter		指定令牌筛选器类型的 URI 片段。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
preserveOriginal	boolean	False	指示是否保留原始令牌的值。默认值为 false。

AzureActiveDirectoryApplicationCredentials

Object

为搜索服务创建的已注册应用程序的凭据，用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。

名称	类型	说明
applicationId	string	向 Azure Key Vault 授予所需的访问权限的 AAD 应用程序 ID，该权限将在加密静态数据时使用。应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。
applicationSecret	string	指定 AAD 应用程序的身份验证密钥。

AzureOpenAIEmbeddingSkill

Object

允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。

名称	类型	说明
@odata.type	string: #Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill	指定技能类型的 URI 片段。
apiKey	string	指定 Azure OpenAI 资源的 API 密钥。
authIdentity	SearchIndexerDataIdentity: SearchIndexerDataNoneIdentity SearchIndexerDataUserAssignedIdentity	用于出站连接的用户分配的托管标识。
context	string	表示执行作的级别，例如文档根目录或文档内容（例如，/document 或 /document/content）。默认值为 /document。
deploymentId	string	指定资源上 Azure OpenAI 模型部署的 ID。
description	string	描述技能的描述，描述技能的输入、输出和用法。
dimensions	integer (int32)	生成的输出嵌入应有的维度数。仅在 text-embedding-3 及更高版本中受支持。
inputs	InputFieldMappingEntry[]	技能的输入可以是源数据集中的列，也可以是上游技能的输出。
modelName	AzureOpenAIModelName	部署在提供的 deploymentId 路径上的嵌入模型的名称。
name	string	在技能集中唯一标识它的技能的名称。未定义名称的技能将在技能数组中为其从 1 开始的索引的默认名称，前缀为字符“#”。
outputs	OutputFieldMappingEntry[]	技能的输出要么是搜索索引中的字段，要么是可作为其他技能输入使用的值。
resourceUri	string (uri)	Azure OpenAI 资源的资源 URI。

AzureOpenAIModelName

枚举

将调用的 Azure Open AI 模型名称。

值	说明
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Object

指定用于连接到 Azure OpenAI 资源的参数。

名称	类型	说明
apiKey	string	指定 Azure OpenAI 资源的 API 密钥。
authIdentity	SearchIndexerDataIdentity: SearchIndexerDataNoneIdentity SearchIndexerDataUserAssignedIdentity	用于出站连接的用户分配的托管标识。
deploymentId	string	指定资源上 Azure OpenAI 模型部署的 ID。
modelName	AzureOpenAIModelName	部署在提供的 deploymentId 路径上的嵌入模型的名称。
resourceUri	string (uri)	Azure OpenAI 资源的资源 URI。

AzureOpenAIVectorizer

Object

指定用于矢量化查询字符串的 Azure OpenAI 资源。

名称	类型	说明
azureOpenAIParameters	AzureOpenAIParameters: AzureOpenAIEmbeddingSkill	包含特定于 Azure OpenAI 嵌入矢量化的参数。
kind	string: azureOpenAI	配置为用于向量搜索的矢量化方法的名称。
name	string	要与此特定矢量化方法关联的名称。

BinaryQuantizationVectorSearchCompressionConfiguration

Object

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

名称	类型	说明
kind	string: binaryQuantization	配置为与矢量搜索一起使用的压缩方法类型的名称。
name	string	要与此特定配置关联的名称。
rescoringOptions	RescoringOptions	包含重新评分的选项。
truncationDimension	integer (int32)	要截断向量的维数。截断向量可以减小向量的大小和搜索期间需要传输的数据量。这可以节省存储成本并提高搜索性能，但代价是召回率。它只能用于使用套娃表示学习（MRL）训练的嵌入，例如 OpenAI text-embedding-3-large （small）。默认值为 null，这意味着没有截断。

BM25Similarity

Object

基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法，包括长度归一化（由“b”参数控制）以及项频率饱和度（由“k1”参数控制）。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.BM25Similarity
b	number (double)	此属性控制文档长度如何影响相关性分数。默认情况下，使用值 0.75。值 0.0 表示不应用长度规范化，而值 1.0 表示分数按文档长度完全规范化。
k1	number (double)	此属性控制每个匹配术语的术语频率与文档查询对的最终相关性分数之间的缩放函数。默认情况下，使用值 1.2。值 0.0 表示分数不会随着术语频率的增加而缩放。

CharFilterName

枚举

定义搜索引擎支持的所有字符过滤器的名称。

值	说明
html_strip	尝试剥离 HTML 构造的字符过滤器。看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Object

形成从标准分词器生成的 CJK 术语的二元组。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.CjkBigramTokenFilter		指定令牌筛选器类型的 URI 片段。
ignoreScripts	CjkBigramTokenFilterScripts[]		要忽略的脚本。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
outputUnigrams	boolean	False	一个值，指示是同时输出单元组和双元组（如果为 true），还是仅输出双元组（如果为 false）。默认值为 false。

CjkBigramTokenFilterScripts

枚举

CjkBigramTokenFilter 可以忽略的脚本。

值	说明
han	在形成中日韩术语的二元组时忽略汉文字。
hiragana	在形成 CJK 术语的二元组时忽略平假名脚本。
katakana	在形成 CJK 术语的二元组时忽略片假名脚本。
hangul	在形成 CJK 术语的二元组时忽略韩文脚本。

ClassicSimilarity

Object

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Object

基于语法的分词器，适用于处理大多数欧洲语言文档。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.ClassicTokenizer		指定分词器类型的 URI 片段。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。默认值为 255。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

CommonGramTokenFilter

Object

在索引时为频繁出现的术语构造二元组。单个术语也仍然被索引，双元组叠加。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.CommonGramTokenFilter		指定令牌筛选器类型的 URI 片段。
commonWords	string[]		常用词集。
ignoreCase	boolean	False	指示常用单词匹配是否不区分大小写的值。默认值为 false。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
queryMode	boolean	False	指示令牌筛选器是否处于查询模式的值。在查询模式下，令牌筛选器会生成二元组，然后删除常用单词和单个术语，然后删除一个常用单词。默认值为 false。

CorsOptions

Object

定义用于控制索引的跨域资源共享（CORS）的选项。

名称	类型	说明
allowedOrigins	string[]	JavaScript 代码将被授予对索引访问权限的来源列表。可以包含 {protocol}：//{fully-qualified-domain-name}[：{port#}] 形式的主机列表，或单个“*”以允许所有源（不推荐）。
maxAgeInSeconds	integer (int64)	浏览器应缓存 CORS 预检响应的持续时间。默认为 5 分钟。

CustomAnalyzer

Object

允许您控制将文本转换为可索引/可搜索标记的过程。它是一个用户定义的配置，由单个预定义分词器和一个或多个过滤器组成。分词器负责将文本分解为标记，过滤器负责修改分词器发出的标记。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.CustomAnalyzer	指定分析器类型的 URI 片段。
charFilters	CharFilterName[]	用于在分词器处理输入文本之前准备输入文本的字符过滤器列表。例如，它们可以替换某些字符或符号。筛选器按列出的顺序运行。
name	string	分析器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
tokenFilters	TokenFilterName[]	用于过滤掉或修改分词器生成的令牌的令牌过滤器列表。例如，您可以指定一个小写过滤器，将所有字符转换为小写。筛选器按列出的顺序运行。
tokenizer	LexicalTokenizerName	用于将连续文本划分为一系列标记的标记器的名称，例如将句子分解为单词。

CustomNormalizer

Object

允许您为可过滤、可排序和可分面字段配置规范化，默认情况下，这些字段以严格匹配的方式运行。这是一个用户定义的配置，由至少一个或多个过滤器组成，这些过滤器修改存储的令牌。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.CustomNormalizer	指定规范化程序类型的 URI 片段。
charFilters	CharFilterName[]	用于在处理输入文本之前准备输入文本的字符过滤器列表。例如，它们可以替换某些字符或符号。筛选器按列出的顺序运行。
name	string	规范化器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。它不能以“.microsoft”或“.lucene”结尾，也不能命名为“asciifolding”、“standard”、“lowercase”、“uppercase”或“elision”。
tokenFilters	TokenFilterName[]	用于过滤或修改输入令牌的令牌筛选器列表。例如，您可以指定一个小写过滤器，将所有字符转换为小写。筛选器按列出的顺序运行。

DictionaryDecompounderTokenFilter

Object

分解许多日耳曼语言中的复合词。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.DictionaryDecompounderTokenFilter		指定令牌筛选器类型的 URI 片段。
maxSubwordSize	integer (int32) maximum: 300	15	最大子字大小。仅输出短于此的子词。默认为 15. 最大值为 300。
minSubwordSize	integer (int32) maximum: 300	2	最小子字大小。仅输出比此长度更长的子词。默认值为 2。最大值为 300。
minWordSize	integer (int32) maximum: 300	5	最小字数。只有比这更长的单词才会被处理。默认值为 5。最大值为 300。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
onlyLongestMatch	boolean	False	指示是否仅将最长的匹配子词添加到输出中的值。默认值为 false。
wordList	string[]		要匹配的单词列表。

DistanceScoringFunction

Object

定义一个函数，该函数根据与地理位置的距离提高分数。

名称	类型	说明
boost	number (double)	原始分数的乘数。必须是不等于 1.0 的正数。
distance	DistanceScoringParameters	距离评分函数的参数值。
fieldName	string	用作评分函数输入的字段的名称。
interpolation	ScoringFunctionInterpolation	一个值，指示如何在文档分数之间插值提升;默认为“线性”。
type	string: distance	指示要使用的函数类型。有效值包括大小、新鲜度、距离和标签。函数类型必须是小写的。

DistanceScoringParameters

Object

为距离评分函数提供参数值。

名称	类型	说明
boostingDistance	number (double)	距提升范围结束的参考位置的距离（以公里为单位）。
referencePointParameter	string	在搜索查询中传递的用于指定引用位置的参数的名称。

EdgeNGramTokenFilter

Object

从输入标记的前面或背面开始生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.EdgeNGramTokenFilter		指定令牌筛选器类型的 URI 片段。
maxGram	integer (int32)	2	最大 n-gram 长度。默认值为 2。
minGram	integer (int32)	1	最小 n-gram 长度。默认值为 1。必须小于 maxGram 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
side	EdgeNGramTokenFilterSide	front	指定应从输入的哪一侧生成 n-gram。默认值为“front”。

EdgeNGramTokenFilterSide

枚举

指定应从输入的哪一侧生成 n-gram。

值	说明
front	指定应从输入的前面生成 n-gram。
back	指定应从输入的背面生成 n-gram。

EdgeNGramTokenFilterV2

Object

从输入标记的前面或背面开始生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.EdgeNGramTokenFilterV2		指定令牌筛选器类型的 URI 片段。
maxGram	integer (int32) maximum: 300	2	最大 n-gram 长度。默认值为 2。最大值为 300。
minGram	integer (int32) maximum: 300	1	最小 n-gram 长度。默认值为 1。最大值为 300。必须小于 maxGram 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
side	EdgeNGramTokenFilterSide	front	指定应从输入的哪一侧生成 n-gram。默认值为“front”。

EdgeNGramTokenizer

Object

将来自边的输入标记为给定大小的 n 克。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.EdgeNGramTokenizer		指定分词器类型的 URI 片段。
maxGram	integer (int32) maximum: 300	2	最大 n-gram 长度。默认值为 2。最大值为 300。
minGram	integer (int32) maximum: 300	1	最小 n-gram 长度。默认值为 1。最大值为 300。必须小于 maxGram 的值。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
tokenChars	TokenCharacterKind[]		要保留在令牌中的字符类。

ElisionTokenFilter

Object

删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.ElisionTokenFilter	指定令牌筛选器类型的 URI 片段。
articles	string[]	要删除的文章集。
name	string	令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

ErrorAdditionalInfo

Object

资源管理错误附加信息。

名称	类型	说明
info	object	其他信息。
type	string	其他信息类型。

ErrorDetail

Object

错误详细信息。

名称	类型	说明
additionalInfo	ErrorAdditionalInfo[]	错误附加信息。
code	string	错误代码。
details	ErrorDetail[]	错误详细信息。
message	string	错误消息。
target	string	错误目标。

ErrorResponse

Object

错误响应

名称	类型	说明
error	ErrorDetail	错误对象。

ExhaustiveKnnParameters

Object

包含特定于穷尽 KNN 算法的参数。

名称	类型	说明
metric	VectorSearchAlgorithmMetric	用于向量比较的相似度指标。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Object

包含特定于查询期间使用的详尽 KNN 算法的配置选项，该算法将对整个向量索引执行暴力搜索。

名称	类型	说明
exhaustiveKnnParameters	ExhaustiveKnnParameters	包含特定于穷尽 KNN 算法的参数。
kind	string: exhaustiveKnn	配置为用于矢量搜索的算法类型的名称。
name	string	要与此特定配置关联的名称。

FreshnessScoringFunction

Object

定义一个函数，该函数根据日期时间字段的值提高分数。

名称	类型	说明
boost	number (double)	原始分数的乘数。必须是不等于 1.0 的正数。
fieldName	string	用作评分函数输入的字段的名称。
freshness	FreshnessScoringParameters	新鲜度评分函数的参数值。
interpolation	ScoringFunctionInterpolation	一个值，指示如何在文档分数之间插值提升;默认为“线性”。
type	string: freshness	指示要使用的函数类型。有效值包括大小、新鲜度、距离和标签。函数类型必须是小写的。

FreshnessScoringParameters

Object

为新鲜度评分函数提供参数值。

名称	类型	说明
boostingDuration	string (duration)	特定文档的加速将停止的到期期限。

HnswParameters

Object

包含特定于 HNSW 算法的参数。

名称	类型	默认值	说明
efConstruction	integer (int32) minimum: 100 maximum: 1000	400	包含最近邻的动态列表的大小，在索引时使用。增加此参数可能会提高索引质量，但代价是索引时间增加。在某个时候，增加该参数会导致收益递减。
efSearch	integer (int32) minimum: 100 maximum: 1000	500	包含最近邻的动态列表的大小，在搜索时使用。增加此参数可能会改善搜索结果，但代价是搜索速度变慢。在某个时候，增加该参数会导致收益递减。
m	integer (int32) minimum: 4 maximum: 10	4	在构造期间为每个新元素创建的双向链接数。增加此参数值可能会提高召回率并减少具有高内在维数的数据集的检索时间，但代价是内存消耗增加和索引时间延长。
metric	VectorSearchAlgorithmMetric		用于向量比较的相似度指标。

HnswVectorSearchAlgorithmConfiguration

Object

包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。

名称	类型	说明
hnswParameters	HnswParameters	包含特定于 HNSW 算法的参数。
kind	string: hnsw	配置为用于矢量搜索的算法类型的名称。
name	string	要与此特定配置关联的名称。

InputFieldMappingEntry

Object

技能的输入字段映射。

名称	类型	说明
inputs	InputFieldMappingEntry[]	创建复杂类型时使用的递归输入。
name	string	输入的名称。
source	string	输入的源。
sourceContext	string	用于选择递归输入的源上下文。

KeepTokenFilter

Object

一种令牌筛选器，仅保留指定单词列表中包含文本的令牌。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.KeepTokenFilter		指定令牌筛选器类型的 URI 片段。
keepWords	string[]		要保留的单词列表。
keepWordsCase	boolean	False	指示是否先将所有单词小写的值。默认值为 false。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

KeywordMarkerTokenFilter

Object

将术语标记为关键字。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.KeywordMarkerTokenFilter		指定令牌筛选器类型的 URI 片段。
ignoreCase	boolean	False	指示是否忽略大小写的值。如果为 true，则所有单词首先转换为小写。默认值为 false。
keywords	string[]		要标记为关键字的单词列表。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

KeywordTokenizer

Object

将整个输入作为单个标记发出。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.KeywordTokenizer		指定分词器类型的 URI 片段。
bufferSize	integer (int32)	256	读取缓冲区大小（以字节为单位）。默认值为 256。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

KeywordTokenizerV2

Object

将整个输入作为单个标记发出。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.KeywordTokenizerV2		指定分词器类型的 URI 片段。
maxTokenLength	integer (int32) maximum: 300	256	最大令牌长度。默认值为 256。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

LengthTokenFilter

Object

删除太长或太短的单词。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.LengthTokenFilter		指定令牌筛选器类型的 URI 片段。
max	integer (int32) maximum: 300	300	最大长度（以字符为单位）。默认值和最大值为 300。
min	integer (int32) maximum: 300	0	最小长度（以字符为单位）。默认为 0。最大值为 300。必须小于 max 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

LexicalAnalyzerName

枚举

定义搜索引擎支持的所有文本分析器的名称。

值	说明
ar.microsoft	Microsoft 阿拉伯语分析器。
ar.lucene	阿拉伯语 Lucene 分析仪。
hy.lucene	亚美尼亚语的 Lucene 分析仪。
bn.microsoft	适用于孟加拉语的 Microsoft 分析器。
eu.lucene	用于巴斯克语的 Lucene 分析仪。
bg.microsoft	保加利亚语的 Microsoft 分析器。
bg.lucene	保加利亚语的 Lucene 分析仪。
ca.microsoft	适用于加泰罗尼亚语的 Microsoft 分析器。
ca.lucene	用于加泰罗尼亚语的 Lucene 分析仪。
zh-Hans.microsoft	Microsoft 中文分析器（简体）。
zh-Hans.lucene	Lucene 中文分析仪（简体）。
zh-Hant.microsoft	Microsoft 中文分析器（繁体）。
zh-Hant.lucene	Lucene 中文分析仪（繁体）。
hr.microsoft	克罗地亚语的 Microsoft 分析器。
cs.microsoft	捷克语的 Microsoft 分析器。
cs.lucene	捷克的 Lucene 分析仪。
da.microsoft	丹麦语的 Microsoft 分析器。
da.lucene	丹麦语 Lucene 分析仪。
nl.microsoft	适用于荷兰语的 Microsoft 分析器。
nl.lucene	荷兰语的 Lucene 分析仪。
en.microsoft	Microsoft Analyzer for English。
en.lucene	Lucene 分析仪，用于英语。
et.microsoft	爱沙尼亚语的 Microsoft 分析器。
fi.microsoft	芬兰语的 Microsoft 分析器。
fi.lucene	芬兰语的 Lucene 分析仪。
fr.microsoft	法语的 Microsoft 分析器。
fr.lucene	法语 Lucene 分析仪。
gl.lucene	用于加利西亚语的 Lucene 分析仪。
de.microsoft	德语的 Microsoft 分析器。
de.lucene	德语 Lucene 分析仪。
el.microsoft	希腊语的 Microsoft 分析器。
el.lucene	希腊语 Lucene 分析仪。
gu.microsoft	古吉拉特语的 Microsoft 分析器。
he.microsoft	希伯来语的 Microsoft 分析器。
hi.microsoft	印地语的 Microsoft 分析器。
hi.lucene	印地语 Lucene 分析仪。
hu.microsoft	匈牙利语的 Microsoft 分析器。
hu.lucene	匈牙利语的 Lucene 分析仪。
is.microsoft	冰岛语的 Microsoft 分析器。
id.microsoft	Microsoft 印度尼西亚语分析器（印尼语）。
id.lucene	印度尼西亚语的 Lucene 分析仪。
ga.lucene	爱尔兰语 Lucene 分析仪。
it.microsoft	意大利语的 Microsoft 分析器。
it.lucene	意大利语 Lucene 分析仪。
ja.microsoft	日语的 Microsoft 分析器。
ja.lucene	日语 Lucene 分析仪。
kn.microsoft	适用于卡纳达语的 Microsoft 分析器。
ko.microsoft	韩语的 Microsoft 分析器。
ko.lucene	韩语Lucene分析仪。
lv.microsoft	Microsoft Analyzer for Latvian。
lv.lucene	拉脱维亚的 Lucene 分析仪。
lt.microsoft	立陶宛语的 Microsoft 分析器。
ml.microsoft	适用于马拉雅拉姆语的 Microsoft 分析器。
ms.microsoft	Microsoft 马来语分析器（拉丁语）。
mr.microsoft	Microsoft 马拉地语分析器。
nb.microsoft	Microsoft analyzer for Norwegian （Bokmål）。
no.lucene	挪威的 Lucene 分析仪。
fa.lucene	用于波斯语的 Lucene 分析仪。
pl.microsoft	适用于波兰语的 Microsoft 分析器。
pl.lucene	用于波兰语的 Lucene 分析仪。
pt-BR.microsoft	葡萄牙语（巴西）的 Microsoft 分析器。
pt-BR.lucene	葡萄牙语（巴西）的 Lucene 分析仪。
pt-PT.microsoft	Microsoft Analyzer for Portuguese （葡萄牙）。
pt-PT.lucene	葡萄牙语（葡萄牙）的 Lucene 分析仪。
pa.microsoft	旁遮普语的 Microsoft 分析器。
ro.microsoft	罗马尼亚语的 Microsoft 分析器。
ro.lucene	罗马尼亚语的 Lucene 分析仪。
ru.microsoft	俄语的 Microsoft 分析器。
ru.lucene	俄语 Lucene 分析仪。
sr-cyrillic.microsoft	塞尔维亚语（西里尔文）的 Microsoft 分析器。
sr-latin.microsoft	Microsoft 塞尔维亚语分析器（拉丁语）。
sk.microsoft	Microsoft Analyzer for Slovak。
sl.microsoft	Microsoft 分析器 for Slovenian。
es.microsoft	西班牙语的 Microsoft 分析器。
es.lucene	西班牙语的 Lucene 分析仪。
sv.microsoft	瑞典语的 Microsoft 分析器。
sv.lucene	瑞典语 Lucene 分析仪。
ta.microsoft	泰米尔语的 Microsoft 分析器。
te.microsoft	泰卢固语的 Microsoft 分析器。
th.microsoft	适用于泰语的 Microsoft 分析器。
th.lucene	泰式 Lucene 分析仪。
tr.microsoft	土耳其语的 Microsoft 分析器。
tr.lucene	土耳其语 Lucene 分析仪。
uk.microsoft	乌克兰语的 Microsoft 分析器。
ur.microsoft	乌尔都语的 Microsoft 分析器。
vi.microsoft	Microsoft 越南语分析器。
standard.lucene	标准 Lucene 分析仪。
standardasciifolding.lucene	标准 ASCII 折叠 Lucene 分析仪。看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
keyword	将字段的全部内容视为单个标记。这对于邮政编码、ID 和某些产品名称等数据很有用。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
pattern	通过正则表达式模式灵活地将文本分隔为术语。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
simple	将文本分隔为非字母并将它们转换为小写。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
stop	在非字母处划分文本;应用小写和停用词标记筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
whitespace	使用空格分词器的分析器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

枚举

定义搜索引擎支持的所有文本规范化器的名称。

值	说明
asciifolding	将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	将标记文本规范化为小写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	标准归一化器，由小写和 asciifolding 组成。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	将标记文本规范化为大写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

枚举

定义搜索引擎支持的所有分词器的名称。

值	说明
classic	基于语法的分词器，适用于处理大多数欧洲语言文档。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	将来自边的输入标记为给定大小的 n 克。看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	将整个输入作为单个标记发出。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	在非字母处划分文本。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	将文本分隔为非字母并将它们转换为小写。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer	使用特定于语言的规则划分文本。
microsoft_language_stemming_tokenizer	使用特定于语言的规则划分文本，并将单词简化为基本形式。
nGram	将输入标记为给定大小的 n 克。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	用于类似路径的层次结构的分词器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	使用正则表达式模式匹配来构造不同标记的标记器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	标准Lucene分析仪;由标准分词器、小写过滤器和停止过滤器组成。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	将 url 和电子邮件标记为一个标记。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	在空格处划分文本。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Object

限制索引时的令牌数量。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.LimitTokenFilter		指定令牌筛选器类型的 URI 片段。
consumeAllTokens	boolean	False	一个值，指示即使达到 maxTokenCount，是否也必须使用输入中的所有令牌。默认值为 false。
maxTokenCount	integer (int32)	1	要生成的最大令牌数。默认值为 1。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

LuceneStandardAnalyzer

Object

标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.StandardAnalyzer		指定分析器类型的 URI 片段。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。默认值为 255。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。
name	string		分析器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
stopwords	string[]		停用词列表。

LuceneStandardTokenizer

Object

按照 Unicode 文本分段规则中断文本。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.StandardTokenizer		指定分词器类型的 URI 片段。
maxTokenLength	integer (int32)	255	最大令牌长度。默认值为 255。长度超过最大长度的令牌将被拆分。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

LuceneStandardTokenizerV2

Object

按照 Unicode 文本分段规则中断文本。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.StandardTokenizerV2		指定分词器类型的 URI 片段。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。默认值为 255。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

MagnitudeScoringFunction

Object

定义一个函数，该函数根据数值字段的大小提高分数。

名称	类型	说明
boost	number (double)	原始分数的乘数。必须是不等于 1.0 的正数。
fieldName	string	用作评分函数输入的字段的名称。
interpolation	ScoringFunctionInterpolation	一个值，指示如何在文档分数之间插值提升;默认为“线性”。
magnitude	MagnitudeScoringParameters	幅度评分函数的参数值。
type	string: magnitude	指示要使用的函数类型。有效值包括大小、新鲜度、距离和标签。函数类型必须是小写的。

MagnitudeScoringParameters

Object

为幅度评分函数提供参数值。

名称	类型	说明
boostingRangeEnd	number (double)	提升结束的字段值。
boostingRangeStart	number (double)	开始提升的字段值。
constantBoostBeyondRange	boolean	指示是否对超出范围结束值的字段值应用恒定提升的值;默认值为 false。

MappingCharFilter

Object

应用使用 mappings 选项定义的映射的字符过滤器。匹配是贪婪的（在给定点上最长的模式匹配获胜）。允许替换为空字符串。此字符过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.MappingCharFilter	指定字符过滤器类型的 URI 片段。
mappings	string[]	以下格式的映射列表：“a=>b”（字符“a”的所有匹配项都将替换为字符“b”）。
name	string	字符过滤器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

MicrosoftLanguageStemmingTokenizer

Object

使用特定于语言的规则划分文本，并将单词简化为基本形式。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer		指定分词器类型的 URI 片段。
isSearchTokenizer	boolean	False	指示如何使用分词器的值。如果用作搜索分词器，则设置为 true，如果用作索引分词器，则设置为 false。默认值为 false。
language	MicrosoftStemmingTokenizerLanguage		要使用的语言。默认值为英语。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌，然后根据设置的最大令牌长度拆分每个令牌。默认值为 255。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

MicrosoftLanguageTokenizer

Object

使用特定于语言的规则划分文本。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.MicrosoftLanguageTokenizer		指定分词器类型的 URI 片段。
isSearchTokenizer	boolean	False	指示如何使用分词器的值。如果用作搜索分词器，则设置为 true，如果用作索引分词器，则设置为 false。默认值为 false。
language	MicrosoftTokenizerLanguage		要使用的语言。默认值为英语。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌，然后根据设置的最大令牌长度拆分每个令牌。默认值为 255。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

MicrosoftStemmingTokenizerLanguage

枚举

列出 Microsoft 语言词干提取器支持的语言。

值	说明
arabic	选择阿拉伯语的 Microsoft 词干提取器。
bangla	选择孟加拉语的 Microsoft 词干提取器。
bulgarian	选择保加利亚语的 Microsoft 词干提取器。
catalan	选择加泰罗尼亚语的 Microsoft 词干提取器。
croatian	选择克罗地亚语的 Microsoft 词干提取器。
czech	选择捷克语的 Microsoft 词干提取器。
danish	选择丹麦语的 Microsoft 词干提取器。
dutch	选择荷兰语的 Microsoft 词干提取器。
english	选择英语的 Microsoft 词干标记器。
estonian	选择爱沙尼亚语的 Microsoft 词干标记器。
finnish	选择芬兰语的 Microsoft 词干提取器。
french	选择法语的 Microsoft 词干提取器。
german	选择德语的 Microsoft 词干提取分词器。
greek	选择希腊语的 Microsoft 词干提取器。
gujarati	选择古吉拉特语的 Microsoft 词干提取标记器。
hebrew	选择希伯来语的 Microsoft 词干提取器。
hindi	选择印地语的 Microsoft 词干标记器。
hungarian	选择匈牙利语的 Microsoft 词干提取器。
icelandic	选择冰岛语的 Microsoft 词干提取分词器。
indonesian	选择印度尼西亚语的 Microsoft 词干提取器。
italian	选择意大利语的 Microsoft 词干提取器。
kannada	选择卡纳达语的 Microsoft 词干提取器。
latvian	选择拉脱维亚语的 Microsoft 词干提取标记器。
lithuanian	选择立陶宛语的 Microsoft 词干标记器。
malay	选择马来语的 Microsoft 词干提取分词器。
malayalam	选择马拉雅拉姆语的 Microsoft 词干提取器。
marathi	选择马拉地语的 Microsoft 词干提取器。
norwegianBokmaal	选择挪威语（Bokmål）的 Microsoft 词干提取器。
polish	选择波兰语的 Microsoft 词干提取分词器。
portuguese	选择葡萄牙语的 Microsoft 词干提取分词器。
portugueseBrazilian	选择葡萄牙语（巴西）的 Microsoft 词干提取器。
punjabi	选择旁遮普语的 Microsoft 词干提取器。
romanian	选择罗马尼亚语的 Microsoft 词干提取分词器。
russian	选择俄语的 Microsoft 词干标记器。
serbianCyrillic	选择塞尔维亚语（西里尔文）的 Microsoft 词干提取器。
serbianLatin	选择塞尔维亚语（拉丁语）的 Microsoft 词干提取分词器。
slovak	选择斯洛伐克语的 Microsoft 词干提取器。
slovenian	选择斯洛文尼亚语的 Microsoft 词干提取器。
spanish	选择西班牙语的 Microsoft 词干标记器。
swedish	选择瑞典语的 Microsoft 词干提取分词器。
tamil	选择泰米尔语的 Microsoft 词干提取器。
telugu	选择泰卢固语的 Microsoft 词干提取器。
turkish	选择土耳其语的 Microsoft 词干提取器。
ukrainian	选择乌克兰语的 Microsoft 词干提取器。
urdu	选择乌尔都语的 Microsoft 词干提取器。

MicrosoftTokenizerLanguage

枚举

列出 Microsoft 语言分词器支持的语言。

值	说明
bangla	选择孟加拉语的 Microsoft 分词器。
bulgarian	选择保加利亚语的 Microsoft 分词器。
catalan	选择加泰罗尼亚语的 Microsoft 分词器。
chineseSimplified	选择中文的 Microsoft 分词器（简体）。
chineseTraditional	选择中文（繁体）的 Microsoft 分词器。
croatian	选择克罗地亚语的 Microsoft 分词器。
czech	选择捷克语的 Microsoft 分词器。
danish	选择丹麦语的 Microsoft 分词器。
dutch	选择荷兰语的 Microsoft 分词器。
english	选择英语的 Microsoft 分词器。
french	选择法语的 Microsoft 分词器。
german	选择德语的 Microsoft 分词器。
greek	选择希腊语的 Microsoft 分词器。
gujarati	选择古吉拉特语的 Microsoft 分词器。
hindi	选择印地语的 Microsoft 分词器。
icelandic	选择冰岛语的 Microsoft 分词器。
indonesian	选择印度尼西亚语的 Microsoft 分词器。
italian	选择意大利语的 Microsoft 分词器。
japanese	选择日语的 Microsoft 分词器。
kannada	选择卡纳达语的 Microsoft 分词器。
korean	选择韩语的 Microsoft 分词器。
malay	选择马来语的 Microsoft 分词器。
malayalam	选择马拉雅拉姆语的 Microsoft 分词器。
marathi	选择马拉地语的 Microsoft 分词器。
norwegianBokmaal	选择挪威语（Bokmål）的 Microsoft 分词器。
polish	选择波兰语的 Microsoft 分词器。
portuguese	选择葡萄牙语的 Microsoft 分词器。
portugueseBrazilian	选择葡萄牙语（巴西）的 Microsoft 分词器。
punjabi	选择旁遮普语的 Microsoft 分词器。
romanian	选择罗马尼亚语的 Microsoft 分词器。
russian	选择俄语的 Microsoft 分词器。
serbianCyrillic	选择塞尔维亚语（西里尔文）的 Microsoft 分词器。
serbianLatin	选择塞尔维亚语（拉丁语）的 Microsoft 分词器。
slovenian	选择斯洛文尼亚语的 Microsoft 分词器。
spanish	选择西班牙语的 Microsoft 分词器。
swedish	选择瑞典语的 Microsoft 分词器。
tamil	选择泰米尔语的 Microsoft 分词器。
telugu	选择泰卢固语的 Microsoft 分词器。
thai	选择泰语的 Microsoft 分词器。
ukrainian	选择乌克兰语的 Microsoft 分词器。
urdu	选择乌尔都语的 Microsoft 分词器。
vietnamese	选择越南语的 Microsoft 分词器。

NGramTokenFilter

Object

生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.NGramTokenFilter		指定令牌筛选器类型的 URI 片段。
maxGram	integer (int32)	2	最大 n-gram 长度。默认值为 2。
minGram	integer (int32)	1	最小 n-gram 长度。默认值为 1。必须小于 maxGram 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

NGramTokenFilterV2

Object

生成给定大小的 n-gram。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.NGramTokenFilterV2		指定令牌筛选器类型的 URI 片段。
maxGram	integer (int32) maximum: 300	2	最大 n-gram 长度。默认值为 2。最大值为 300。
minGram	integer (int32) maximum: 300	1	最小 n-gram 长度。默认值为 1。最大值为 300。必须小于 maxGram 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

NGramTokenizer

Object

将输入标记为给定大小的 n 克。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.NGramTokenizer		指定分词器类型的 URI 片段。
maxGram	integer (int32) maximum: 300	2	最大 n-gram 长度。默认值为 2。最大值为 300。
minGram	integer (int32) maximum: 300	1	最小 n-gram 长度。默认值为 1。最大值为 300。必须小于 maxGram 的值。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
tokenChars	TokenCharacterKind[]		要保留在令牌中的字符类。

OutputFieldMappingEntry

Object

技能的输出字段映射。

名称	类型	说明
name	string	技能定义的输出的名称。
targetName	string	输出的目标名称。它是可选的，默认为 name。

PathHierarchyTokenizerV2

Object

用于类似路径的层次结构的分词器。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.PathHierarchyTokenizerV2		指定分词器类型的 URI 片段。
delimiter	string (char)	/	要使用的分隔符。默认值为“/”。
maxTokenLength	integer (int32) maximum: 300	300	最大令牌长度。默认值和最大值为 300。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
replacement	string (char)	/	如果设置，则替换分隔符的值。默认值为“/”。
reverse	boolean	False	指示是否以相反顺序生成令牌的值。默认值为 false。
skip	integer (int32)	0	要跳过的初始令牌数。默认为 0。

PatternAnalyzer

Object

通过正则表达式模式灵活地将文本分隔为术语。此分析器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.PatternAnalyzer		指定分析器类型的 URI 片段。
flags	RegexFlags		正则表达式标志。
lowercase	boolean	True	指示术语是否应小写的值。默认值为 true。
name	string		分析器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
pattern	string	\W+	用于匹配标记分隔符的正则表达式模式。默认是匹配一个或多个非单词字符的表达式。
stopwords	string[]		停用词列表。

PatternCaptureTokenFilter

Object

使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.PatternCaptureTokenFilter		指定令牌筛选器类型的 URI 片段。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
patterns	string[]		要与每个标记匹配的模式列表。
preserveOriginal	boolean	True	一个值，指示是否返回原始标记，即使其中一个模式匹配。默认值为 true。

PatternReplaceCharFilter

Object

替换输入字符串中字符的字符筛选器。它使用正则表达式来标识要保留的字符序列，并使用替换模式来标识要替换的字符。例如，给定输入文本“aa bb aa bb”、模式“（aa）\s+（bb）”和替换“$1#$2”，结果将是“aa#bb aa#bb”。此字符过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.PatternReplaceCharFilter	指定字符过滤器类型的 URI 片段。
name	string	字符过滤器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
pattern	string	正则表达式模式。
replacement	string	替换文本。

PatternReplaceTokenFilter

Object

替换输入字符串中字符的字符筛选器。它使用正则表达式来标识要保留的字符序列，并使用替换模式来标识要替换的字符。例如，给定输入文本“aa bb aa bb”、模式“（aa）\s+（bb）”和替换“$1#$2”，结果将是“aa#bb aa#bb”。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.PatternReplaceTokenFilter	指定令牌筛选器类型的 URI 片段。
name	string	令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
pattern	string	正则表达式模式。
replacement	string	替换文本。

PatternTokenizer

Object

使用正则表达式模式匹配来构造不同标记的标记器。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.PatternTokenizer		指定分词器类型的 URI 片段。
flags	RegexFlags		正则表达式标志。
group	integer (int32)	-1	正则表达式模式中匹配组的从零开始的序号，要提取到标记中。如果要使用整个模式将输入拆分为标记，则使用 -1，而不考虑匹配的组。默认值为 -1。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
pattern	string	\W+	用于匹配标记分隔符的正则表达式模式。默认是匹配一个或多个非单词字符的表达式。

PhoneticEncoder

枚举

标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。

值	说明
metaphone	将令牌编码为 Metaphone 值。
doubleMetaphone	将标记编码为双元音值。
soundex	将标记编码为 Soundex 值。
refinedSoundex	将标记编码为精炼的 Soundex 值。
caverphone1	将标记编码为 Caverphone 1.0 值。
caverphone2	将标记编码为 Caverphone 2.0 值。
cologne	将标记编码为科隆语音值。
nysiis	将代币编码为 NYSIIS 值。
koelnerPhonetik	使用 Kölner Phonetik 算法对令牌进行编码。
haasePhonetik	使用 Kölner Phonetik 算法的 Haase 细化对标记进行编码。
beiderMorse	将令牌编码为 Beider-Morse 值。

PhoneticTokenFilter

Object

为语音匹配创建标记。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.PhoneticTokenFilter		指定令牌筛选器类型的 URI 片段。
encoder	PhoneticEncoder	metaphone	要使用的语音编码器。默认值为“metaphone”。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
replace	boolean	True	指示编码令牌是否应替换原始令牌的值。如果为 false，则将编码标记添加为同义词。默认值为 true。

PrioritizedFields

Object

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

名称	类型	说明
prioritizedContentFields	SemanticField[]	定义要用于语义排名、标题、突出显示和答案的内容字段。为获得最佳结果，所选字段应包含自然语言形式的文本。数组中字段的顺序表示它们的优先级。如果内容很长，优先级较低的字段可能会被截断。
prioritizedKeywordsFields	SemanticField[]	定义要用于语义排名、标题、突出显示和答案的关键字字段。为了获得最佳结果，所选字段应包含关键字列表。数组中字段的顺序表示它们的优先级。如果内容很长，优先级较低的字段可能会被截断。
titleField	SemanticField	定义要用于语义排名、标题、突出显示和答案的标题字段。如果索引中没有标题字段，请将其留空。

RankingOrder

枚举

表示用于文档排序顺序的分数。

值	说明
BoostedRerankerScore	将排序顺序设置为 BoostedRerankerScore
RerankerScore	将排序顺序设置为 ReRankerScore

RegexFlags

枚举

定义可以组合的标志，以控制正则表达式在模式分析器和模式分词器中的使用方式。

值	说明
CANON_EQ	启用规范等效性。
CASE_INSENSITIVE	启用不区分大小写的匹配。
COMMENTS	允许模式中的空格和注释。
DOTALL	启用点模式。
LITERAL	启用模式的文字解析。
MULTILINE	启用多行模式。
UNICODE_CASE	启用 Unicode 感知大小写折叠。
UNIX_LINES	启用 Unix 线路模式。

RescoringOptions

Object

包含重新评分的选项。

名称	类型	默认值	说明
defaultOversampling	number (double)		默认过采样因子。过采样检索更多的潜在文档集，以抵消由于量化而造成的分辨率损失。这增加了将在全精度向量上重新评分的结果集。最小值为 1，表示没有过采样（1x）。只有当 'enableRescoring' 为 true 时，才能设置此参数。较高的值会以延迟为代价提高召回率。
enableRescoring	boolean	True	如果设置为 true，则在对压缩向量进行初始搜索后，将使用全精度向量重新计算相似性分数。这将以延迟为代价提高召回率。
rescoreStorageMethod	VectorSearchCompressionRescoreStorageMethod	preserveOriginals	控制原始矢量的存储方法。此设置是不可变的。

ScalarQuantizationParameters

Object

包含特定于标量量化的参数。

名称	类型	说明
quantizedDataType	VectorSearchCompressionTargetDataType	压缩向量值的量化数据类型。

ScalarQuantizationVectorSearchCompressionConfiguration

Object

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

名称	类型	说明
kind	string: scalarQuantization	配置为与矢量搜索一起使用的压缩方法类型的名称。
name	string	要与此特定配置关联的名称。
rescoringOptions	RescoringOptions	包含重新评分的选项。
scalarQuantizationParameters	ScalarQuantizationParameters	包含特定于标量量化的参数。
truncationDimension	integer (int32)	要截断向量的维数。截断向量可以减小向量的大小和搜索期间需要传输的数据量。这可以节省存储成本并提高搜索性能，但代价是召回率。它只能用于使用套娃表示学习（MRL）训练的嵌入，例如 OpenAI text-embedding-3-large （small）。默认值为 null，这意味着没有截断。

ScoringFunctionAggregation

枚举

定义用于组合评分配置文件中所有评分函数的结果的聚合函数。

值	说明
sum	通过所有评分函数结果的总和来提升分数。
average	通过所有评分函数结果的平均值来提升分数。
minimum	提高所有评分函数结果的最小值。
maximum	将分数提高到所有评分函数结果的最大值。
firstMatching	使用评分配置文件中的第一个适用评分函数提高分数。

ScoringFunctionInterpolation

枚举

定义用于在一系列文档中插值分数提升的函数。

值	说明
linear	以线性递减的量提高分数。这是评分函数的默认插值。
constant	通过恒定系数提高分数。
quadratic	将分数提高二次方递减的量。分数越高，提升会缓慢下降，随着分数的下降，提升会越快。标签评分函数不允许使用此插值选项。
logarithmic	将分数提高对数递减的量。分数越高，提升会迅速减少，而随着分数的降低，提升会越慢。标签评分函数不允许使用此插值选项。

ScoringProfile

Object

定义影响搜索查询评分的搜索索引的参数。

名称	类型	说明
functionAggregation	ScoringFunctionAggregation	指示如何组合各个评分函数的结果的值。默认为“Sum”。如果没有评分函数，则忽略。
functions	ScoringFunction[]: DistanceScoringFunction[] FreshnessScoringFunction[] MagnitudeScoringFunction[] TagScoringFunction[]	影响文档评分的函数集合。
name	string	评分配置文件的名称。
text	TextWeights	根据某些索引字段中的文本匹配提高评分的参数。

SearchField

Object

表示索引定义中的字段，该字段描述字段的名称、数据类型和搜索行为。

名称	类型	说明
analyzer	LexicalAnalyzerName	要用于字段的分析器的名称。此选项只能与可搜索字段一起使用，不能与 searchAnalyzer 或 indexAnalyzer 一起设置。一旦选择了分析器，就无法针对该字段进行更改。对于复杂字段，必须为 null。
dimensions	integer (int32) minimum: 2 maximum: 4096	矢量场的维数。
facetable	boolean	指示是否启用在分面查询中引用字段的值。通常在按类别包含命中次数的搜索结果展示中使用（例如，搜索数码相机并按品牌、像素、价格等查看命中）。对于复杂字段，此属性必须为 null。 Edm.GeographyPoint 或 Collection（Edm.GeographyPoint）类型的字段不能是可分面的。对于所有其他简单字段，默认值为 true。
fields	SearchField[]	如果子字段是类型为 Edm.ComplexType 或 Collection（Edm.ComplexType）的字段，则为子字段列表。对于简单字段，必须为 null 或空。
filterable	boolean	指示是否启用在$filter查询中引用该字段的值。 filterable 与 searchable 在字符串的处理方式上有所不同。可筛选的 Edm.String 或 Collection（Edm.String）类型的字段不会进行断词处理，因此比较仅用于完全匹配。例如，如果将这样的字段 f 设置为“sunny day”，则 $filter=f eq 'sunny' 将找不到匹配项，但 $filter=f eq 'sunny day' 会找到匹配项。对于复杂字段，此属性必须为 null。对于简单字段，默认值为 true，对于复杂字段，默认值为 null。
indexAnalyzer	LexicalAnalyzerName	在为字段编制索引时使用的分析器的名称。此选项只能用于可搜索字段。它必须与 searchAnalyzer 一起设置，不能与 analyzer 选项一起设置。此属性不能设置为语言分析器的名称;如果需要语言分析器，请改用 analyzer 属性。一旦选择了分析器，就无法针对该字段进行更改。对于复杂字段，必须为 null。
key	boolean	指示该字段是否唯一标识索引中的文档的值。必须选择每个索引中只有一个顶级字段作为键字段，并且该字段必须是 Edm.String 类型。键字段可用于直接查找文档并更新或删除特定文档。对于简单字段，默认值为 false，对于复杂字段，默认值为 null。
name	string	字段的名称，在索引或父字段的字段集合中必须是唯一的。
normalizer	LexicalNormalizerName	要用于字段的规范化器的名称。此选项只能用于启用了可过滤、可排序或可分面的字段。选择归一化器后，无法为字段更改它。对于复杂字段，必须为 null。
retrievable	boolean	指示是否可以在搜索结果中返回该字段的值。如果要将字段（例如边距）用作筛选、排序或评分机制，但不希望该字段对最终用户可见，则可以禁用此选项。对于键字段，此属性必须为 true，对于复杂字段，此属性必须为 null。可以在现有字段上更改此属性。启用此属性不会导致索引存储要求增加。对于简单字段，默认值为 true，对于向量字段为 false，对于复杂字段，默认值为 null。
searchAnalyzer	LexicalAnalyzerName	在搜索字段时使用的分析器的名称。此选项只能用于可搜索字段。它必须与 indexAnalyzer 一起设置，不能与 analyzer 选项一起设置。此属性不能设置为语言分析器的名称;如果需要语言分析器，请改用 analyzer 属性。可以在现有字段上更新此分析器。对于复杂字段，必须为 null。
searchable	boolean	指示字段是否可全文搜索的值。这意味着它将在索引过程中进行诸如断字等分析。如果将可搜索字段设置为“sunny day”等值，则在内部它将拆分为单独的标记“sunny”和“day”。这实现了对这些词的全文搜素。默认情况下，可以搜索 Edm.String 或 Collection（Edm.String）类型的字段。对于其他非字符串数据类型的简单字段，此属性必须为 false，对于复杂字段，此属性必须为 null。注意：可搜索字段会占用索引中的额外空间，以容纳用于全文搜索的字段值的其他标记化版本。如果要节省索引中的空间，并且不需要在搜索中包含字段，请将 searchable 设置为 false。
sortable	boolean	指示是否启用在$orderby表达式中引用字段的值。默认情况下，搜索引擎按分数对结果进行排序，但在许多体验中，用户会希望按文档中的字段进行排序。仅当简单字段是单值的（它在父文档的作用域中具有单个值）时，它才能进行排序。简单集合字段不能排序，因为它们是多值的。复杂集合的简单子字段也是多值的，因此无法排序。无论是直接父字段还是上级字段，都是如此，这就是复杂的集合。复杂字段不能进行排序，并且此类字段的 sortable 属性必须为 null。对于单值简单字段，sortable 的默认值为 true，对于多值简单字段为 false，对于复杂字段为 null。
stored	boolean	一个不可变值，指示该字段是否将单独保留在磁盘上以在搜索结果中返回。如果您不打算在搜索响应中返回字段内容以节省存储开销，则可以禁用此选项。这只能在索引创建期间设置，并且只能针对向量字段进行设置。不能更改现有字段的此属性，也不能将新字段设置为 false。如果此属性设置为 false，则属性“retrievable”也必须设置为 false。对于键字段、新字段和非向量字段，此属性必须为 true 或未设置，对于复杂字段必须为 null。禁用此属性将减少索引存储要求。对于矢量场，默认值为 true。
synonymMaps	string[]	要与此字段关联的同义词映射的名称列表。此选项只能用于可搜索字段。目前每个字段仅支持一个同义词映射。将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。可以在现有字段上更改此属性。对于复杂字段，必须为 null 或空集合。
type	SearchFieldDataType	字段的数据类型。
vectorEncoding	VectorEncodingFormat	用于解释字段内容的编码格式。
vectorSearchProfile	string	向量搜索配置文件的名称，用于指定搜索向量字段时要使用的算法和矢量化器。

SearchFieldDataType

枚举

定义搜索索引中字段的数据类型。

值	说明
Edm.String	指示字段包含字符串。
Edm.Int32	指示字段包含 32 位有符号整数。
Edm.Int64	指示字段包含 64 位有符号整数。
Edm.Double	指示字段包含 IEEE 双精度浮点数。
Edm.Boolean	指示字段包含布尔值（true 或 false）。
Edm.DateTimeOffset	指示字段包含日期/时间值，包括时区信息。
Edm.GeographyPoint	指示字段包含经度和纬度方面的地理位置。
Edm.ComplexType	指示字段包含一个或多个复杂对象，而这些对象又具有其他类型的子字段。
Edm.Single	指示字段包含单精度浮点数。这仅在与 Collection（Edm.Single）一起使用时有效。
Edm.Half	指示字段包含半精度浮点数。这仅在与 Collection（Edm.Half）一起使用时有效。
Edm.Int16	指示字段包含 16 位有符号整数。这仅在与 Collection（Edm.Int16）一起使用时有效。
Edm.SByte	指示字段包含 8 位有符号整数。这仅在与 Collection（Edm.SByte）一起使用时有效。
Edm.Byte	指示字段包含 8 位无符号整数。这仅在与 Collection（Edm.Byte）一起使用时有效。

SearchIndex

Object

表示搜索索引定义，它描述索引的字段和搜索行为。

名称	类型	说明
@odata.etag	string	索引的 ETag。
analyzers	LexicalAnalyzer[]: CustomAnalyzer[] LuceneStandardAnalyzer[] PatternAnalyzer[] StopAnalyzer[]	索引的分析器。
charFilters	CharFilter[]: MappingCharFilter[] PatternReplaceCharFilter[]	索引的字符筛选器。
corsOptions	CorsOptions	用于控制索引的跨域资源共享（CORS）的选项。
defaultScoringProfile	string	如果查询中未指定任何评分配置文件，则要使用的评分配置文件的名称。如果未设置此属性，并且在查询中未指定评分配置文件，则将使用默认评分（tf-idf）。
description	string	索引的描述。
encryptionKey	SearchResourceEncryptionKey	在 Azure Key Vault 中创建的加密密钥的说明。当你希望完全保证没有人（甚至 Microsoft）无法解密你的数据时，此密钥用于为数据提供额外的静态加密级别。加密数据后，它将始终保持加密状态。搜索服务将忽略将此属性设置为 null 的尝试。如果要轮换加密密钥，可以根据需要更改此属性;您的数据将不受影响。使用客户管理的密钥进行加密不适用于免费搜索服务，仅适用于 2019 年 1 月 1 日或之后创建的付费服务。
fields	SearchField[]	索引的字段。
name	string	索引的名称。
normalizers	LexicalNormalizer[]: CustomNormalizer[]	索引的规范化器。
scoringProfiles	ScoringProfile[]	索引的评分配置文件。
semantic	SemanticSettings	定义影响语义功能的搜索索引的参数。
similarity	Similarity: BM25Similarity ClassicSimilarity	对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。相似性算法只能在索引创建时定义，不能在现有索引上进行修改。如果为 null，则使用 ClassicSimilarity 算法。
suggesters	Suggester[]	索引的建议。
tokenFilters	TokenFilter[]: AsciiFoldingTokenFilter[] CjkBigramTokenFilter[] CommonGramTokenFilter[] DictionaryDecompounderTokenFilter[] EdgeNGramTokenFilter[] EdgeNGramTokenFilterV2[] ElisionTokenFilter[] KeepTokenFilter[] KeywordMarkerTokenFilter[] LengthTokenFilter[] LimitTokenFilter[] NGramTokenFilter[] NGramTokenFilterV2[] PatternCaptureTokenFilter[] PatternReplaceTokenFilter[] PhoneticTokenFilter[] ShingleTokenFilter[] SnowballTokenFilter[] StemmerOverrideTokenFilter[] StemmerTokenFilter[] StopwordsTokenFilter[] SynonymTokenFilter[] TruncateTokenFilter[] UniqueTokenFilter[] WordDelimiterTokenFilter[]	索引的令牌筛选器。
tokenizers	LexicalTokenizer[]: ClassicTokenizer[] EdgeNGramTokenizer[] KeywordTokenizer[] KeywordTokenizerV2[] LuceneStandardTokenizer[] LuceneStandardTokenizerV2[] MicrosoftLanguageStemmingTokenizer[] MicrosoftLanguageTokenizer[] NGramTokenizer[] PathHierarchyTokenizerV2[] PatternTokenizer[] UaxUrlEmailTokenizer[]	索引的分词器。
vectorSearch	VectorSearch	包含与矢量搜索相关的配置选项。

SearchIndexerDataNoneIdentity

Object

清除数据源的标识属性。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.DataNoneIdentity	指定身份类型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

Object

指定要使用的数据源的标识。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.DataUserAssignedIdentity	指定身份类型的 URI 片段。
userAssignedIdentity	string	用户分配的托管标识的完全限定的 Azure 资源 ID，通常采用“/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”的形式，应分配给搜索服务。

SearchResourceEncryptionKey

Object

Azure Key Vault 中的客户管理的加密密钥。创建和管理的密钥可用于加密或解密静态数据，例如索引和同义词映射。

名称	类型	说明
accessCredentials	AzureActiveDirectoryApplicationCredentials	用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。如果改用托管标识，则不需要。
keyVaultKeyName	string	用于加密静态数据的 Azure Key Vault 密钥的名称。
keyVaultKeyVersion	string	用于加密静态数据的 Azure Key Vault 密钥版本。
keyVaultUri	string	Azure 密钥保管库的 URI（也称为 DNS 名称），其中包含用于加密静态数据的密钥。一个示例 URI 可能是 `https://my-keyvault-name.vault.azure.net`。

SemanticConfiguration

Object

定义要在语义功能上下文中使用的特定配置。

名称	类型	说明
name	string	语义配置的名称。
prioritizedFields	PrioritizedFields	描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。需要设置三个子属性（titleField、prioritizedKeywordsFields 和 prioritizedContentFields）中的至少一个。
rankingOrder	RankingOrder	指定用于搜索结果排序顺序的分数类型。

SemanticField

Object

用作语义配置一部分的字段。

名称	类型	说明
fieldName	string

SemanticSettings

Object

定义影响语义功能的搜索索引的参数。

名称	类型	说明
configurations	SemanticConfiguration[]	索引的语义配置。
defaultConfiguration	string	允许您在索引中设置默认语义配置的名称，以便每次都将其作为查询参数传递是可选的。

ShingleTokenFilter

Object

将令牌组合创建为单个令牌。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.ShingleTokenFilter		指定令牌筛选器类型的 URI 片段。
filterToken	string	_	要为没有标记的每个位置插入的字符串。默认值为下划线（“_”）。
maxShingleSize	integer (int32) minimum: 2	2	最大木瓦尺寸。默认值和最小值为 2。
minShingleSize	integer (int32) minimum: 2	2	最小木瓦尺寸。默认值和最小值为 2。必须小于 maxShingleSize 的值。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
outputUnigrams	boolean	True	指示输出流是否包含输入标记（单形）和带状疱疹的值。默认值为 true。
outputUnigramsIfNoShingles	boolean	False	一个值，指示是否在没有可用带状疱疹时输出 unigram。当 outputUnigrams 设置为 false 时，此属性优先。默认值为 false。
tokenSeparator	string		连接相邻标记以形成木瓦时使用的字符串。默认值为单个空格（“ ”）。

SnowballTokenFilter

Object

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.SnowballTokenFilter	指定令牌筛选器类型的 URI 片段。
language	SnowballTokenFilterLanguage	要使用的语言。
name	string	令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

SnowballTokenFilterLanguage

枚举

用于 Snowball 令牌筛选器的语言。

值	说明
armenian	为亚美尼亚语选择 Lucene Snowball 词干标记器。
basque	选择巴斯克语的 Lucene Snowball 词干标记器。
catalan	选择加泰罗尼亚语的 Lucene Snowball 词干标记器。
danish	为丹麦语选择 Lucene Snowball 词干标记器。
dutch	选择 Dutch 的 Lucene Snowball 词干标记器。
english	为英语选择 Lucene Snowball 词干标记器。
finnish	为芬兰语选择 Lucene Snowball 词干标记器。
french	为法语选择 Lucene Snowball 词干标记器。
german	选择德语的 Lucene Snowball 词干标记器。
german2	选择使用德语变体算法的 Lucene Snowball 词干提取器。
hungarian	为匈牙利语选择 Lucene Snowball 词干标记器。
italian	为意大利语选择 Lucene Snowball 词干标记器。
kp	选择使用 dutch 的 Lucene Snowball 词干提取器，该分词器使用 Kraaij-Pohlmann 词干提取算法。
lovins	为使用 Lovins 词干提取算法的英语选择 Lucene Snowball 词干提取器。
norwegian	为挪威语选择 Lucene Snowball 词干标记器。
porter	选择使用 Porter 词干提取算法的英语的 Lucene Snowball 词干标记器。
portuguese	为葡萄牙语选择 Lucene Snowball 词干标记器。
romanian	为罗马尼亚语选择 Lucene Snowball 词干标记器。
russian	为俄语选择 Lucene Snowball 词干标记器。
spanish	为西班牙语选择 Lucene Snowball 词干标记器。
swedish	为瑞典语选择 Lucene Snowball 词干标记器。
turkish	为土耳其语选择 Lucene Snowball 词干标记器。

StemmerOverrideTokenFilter

Object

提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。任何词干词干术语都将被标记为关键字，这样它们就不会被链下游的词干分析器所用词干词干处理。必须放置在任何词干过滤器之前。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.StemmerOverrideTokenFilter	指定令牌筛选器类型的 URI 片段。
name	string	令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
rules	string[]	以下格式的词干删除规则列表：“word => stem”，例如：“ran => run”。

StemmerTokenFilter

Object

特定于语言的词干筛选器。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.StemmerTokenFilter	指定令牌筛选器类型的 URI 片段。
language	StemmerTokenFilterLanguage	要使用的语言。
name	string	令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

StemmerTokenFilterLanguage

枚举

用于词干分析器标记筛选器的语言。

值	说明
arabic	为阿拉伯语选择 Lucene 词干标记器。
armenian	选择亚美尼亚语的 Lucene 词干标记器。
basque	选择巴斯克语的 Lucene 词干标记器。
brazilian	为葡萄牙语（巴西）选择 Lucene 词干标记器。
bulgarian	选择保加利亚语的 Lucene 词干标记器。
catalan	选择加泰罗尼亚语的 Lucene 词干标记器。
czech	选择捷克语的 Lucene 词干提取器。
danish	为丹麦语选择 Lucene 词干标记器。
dutch	选择荷兰语的 Lucene 词干标记器。
dutchKp	为使用 Kraaij-Pohlmann 词干提取算法的 Dutch 选择 Lucene 词干提取器。
english	选择英语的 Lucene 词干标记器。
lightEnglish	为执行轻词干提取的英语选择 Lucene 词干标记器。
minimalEnglish	为英语选择执行最小词干提取的 Lucene 词干提取器。
possessiveEnglish	选择英语的 Lucene 词干标记器，该标记器从单词中删除尾随所有格。
porter2	选择使用 Porter2 词干提取算法的英语的 Lucene 词干提取器。
lovins	选择使用 Lovins 词干提取算法的英语的 Lucene 词干提取器。
finnish	为芬兰语选择 Lucene 词干标记器。
lightFinnish	为芬兰语选择执行轻词干提取的 Lucene 词干标记器。
french	选择法语的 Lucene 词干标记器。
lightFrench	为法语选择执行轻词干提取的 Lucene 词干标记器。
minimalFrench	为法语选择执行最小词干提取的 Lucene 词干标记器。
galician	选择 Galician 的 Lucene 词干标记器。
minimalGalician	为加利西亚语选择执行最小词干提取的 Lucene 词干标记器。
german	选择德语的 Lucene 词干标记器。
german2	选择使用德语变体算法的 Lucene 词干标记器。
lightGerman	为执行轻词干提取的德语选择 Lucene 词干标记器。
minimalGerman	为德语选择执行最小词干提取的 Lucene 词干标记器。
greek	选择希腊语的 Lucene 词干标记器。
hindi	选择印地语的 Lucene 词干提取器。
hungarian	选择匈牙利语的 Lucene 词干标记器。
lightHungarian	为匈牙利语选择执行轻词干提取的 Lucene 词干标记器。
indonesian	选择印度尼西亚语的 Lucene 词干提取器。
irish	选择爱尔兰语的 Lucene 词干标记器。
italian	选择意大利语的 Lucene 词干标记器。
lightItalian	为意大利语选择执行轻词干提取的 Lucene 词干标记器。
sorani	选择 Sorani 的 Lucene 词干提取器。
latvian	选择拉脱维亚语的 Lucene 词干标记器。
norwegian	选择挪威语（Bokmål）的 Lucene 词干标记器。
lightNorwegian	为挪威语（Bokmål）选择执行轻词干提取的 Lucene 词干标记器。
minimalNorwegian	为挪威语（Bokmål）选择执行最小词干提取的 Lucene 词干标记器。
lightNynorsk	为挪威语（尼诺斯克）选择执行轻词干提取的 Lucene 词干标记器。
minimalNynorsk	为挪威语（尼诺斯克）选择执行最小词干提取的 Lucene 词干提取器。
portuguese	选择葡萄牙语的 Lucene 词干标记器。
lightPortuguese	为葡萄牙语选择执行轻词干提取的 Lucene 词干标记器。
minimalPortuguese	为葡萄牙语选择执行最小词干提取的 Lucene 词干标记器。
portugueseRslp	选择使用 RSLP 词干提取算法的葡萄牙语的 Lucene 词干提取器。
romanian	为罗马尼亚语选择 Lucene 词干标记器。
russian	为俄语选择 Lucene 词干标记器。
lightRussian	为俄语选择执行轻词干提取的 Lucene 词干标记器。
spanish	选择西班牙语的 Lucene 词干标记器。
lightSpanish	为西班牙语选择执行轻词干提取的 Lucene 词干标记器。
swedish	选择瑞典语的 Lucene 词干标记器。
lightSwedish	为瑞典语选择执行轻词干提取的 Lucene 词干标记器。
turkish	为土耳其语选择 Lucene 词干标记器。

StopAnalyzer

Object

在非字母处划分文本;应用小写和停用词标记筛选器。此分析器是使用 Apache Lucene 实现的。

名称	类型	说明
@odata.type	string: #Microsoft.Azure.Search.StopAnalyzer	指定分析器类型的 URI 片段。
name	string	分析器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
stopwords	string[]	停用词列表。

StopwordsList

枚举

标识特定于语言的停用词的预定义列表。

值	说明
arabic	选择阿拉伯语的停用词列表。
armenian	选择亚美尼亚语的停用词列表。
basque	选择巴斯克语的停用词列表。
brazilian	选择葡萄牙语（巴西）的停用词列表。
bulgarian	选择保加利亚语的停用词列表。
catalan	选择加泰罗尼亚语的停用词列表。
czech	选择捷克语的停用词列表。
danish	选择丹麦语的停用词列表。
dutch	选择荷兰语的停用词列表。
english	选择英语的停用词列表。
finnish	选择芬兰语的停用词列表。
french	选择法语的停用词列表。
galician	选择加利西亚语的停用词列表。
german	选择德语的停用词列表。
greek	选择希腊语的停用词列表。
hindi	选择印地语的停用词列表。
hungarian	选择匈牙利语的停用词列表。
indonesian	选择印度尼西亚语的停用词列表。
irish	选择爱尔兰语的停用词列表。
italian	选择意大利语的停用词列表。
latvian	选择拉脱维亚语的停用词列表。
norwegian	选择挪威语的停用词列表。
persian	选择波斯语的停用词列表。
portuguese	选择葡萄牙语的停用词列表。
romanian	选择罗马尼亚语的停用词列表。
russian	选择俄语的停用词列表。
sorani	选择 Sorani 的停用词列表。
spanish	选择西班牙语的停用词列表。
swedish	选择瑞典语的停用词列表。
thai	选择泰语的停用词列表。
turkish	选择土耳其语的停用词列表。

StopwordsTokenFilter

Object

从标记流中删除停用词。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.StopwordsTokenFilter		指定令牌筛选器类型的 URI 片段。
ignoreCase	boolean	False	指示是否忽略大小写的值。如果为 true，则所有单词首先转换为小写。默认值为 false。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
removeTrailing	boolean	True	一个值，指示如果最后一个搜索词是停用词，则是否忽略该搜索词。默认值为 true。
stopwords	string[]		停用词列表。不能同时设置此属性和停用词列表属性。
stopwordsList	StopwordsList	english	要使用的停用词的预定义列表。不能同时设置此属性和停用词属性。默认为英语。

Suggester

Object

定义建议 API 应如何应用于索引中的一组字段。

名称	类型	说明
name	string	建议者的名称。
searchMode	SuggesterSearchMode	指示建议器功能的值。
sourceFields	string[]	建议器适用的字段名称列表。每个字段都必须是可搜索的。

SuggesterSearchMode

枚举

指示建议器功能的值。

值	说明
analyzingInfixMatching	匹配字段中连续的整项和前缀。例如，对于字段“The fastest brown fox”，查询“fast”和“fastest brow”将匹配。

SynonymTokenFilter

Object

匹配令牌流中的单个或多个单词同义词。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.SynonymTokenFilter		指定令牌筛选器类型的 URI 片段。
expand	boolean	True	一个值，指示同义词列表中的所有单词（如果未使用 => 表示法）是否相互映射。如果为 true，则同义词列表中的所有单词（如果未使用 => 表示法）将相互映射。以下列表：不可思议、不可思议、神话般地、惊人相当于：不可思议、不可思议、不可思议、神话般地、令人惊叹> =不可思议、难以置信、神话般地、令人惊叹。如果为 false，则以下列表：incredible、unbelievable、fabulous、amazing 将等效于：incredible、unbelievable、fabulous、amazing => incredible。默认值为 true。
ignoreCase	boolean	False	指示是否对输入进行大小写折叠以进行匹配的值。默认值为 false。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
synonyms	string[]		以下两种格式之一的同义词列表： 1. 不可思议、难以置信、神话般的 => 惊人 - => 符号左侧的所有术语都将替换为其右侧的所有术语;2. 不可思议、难以置信、神话般的、惊人的 - 逗号分隔的等效单词列表。设置展开选项以更改此列表的解释方式。

TagScoringFunction

Object

定义一个函数，用于提升字符串值与给定标记列表匹配的文档的分数。

名称	类型	说明
boost	number (double)	原始分数的乘数。必须是不等于 1.0 的正数。
fieldName	string	用作评分函数输入的字段的名称。
interpolation	ScoringFunctionInterpolation	一个值，指示如何在文档分数之间插值提升;默认为“线性”。
tag	TagScoringParameters	标记评分函数的参数值。
type	string: tag	指示要使用的函数类型。有效值包括大小、新鲜度、距离和标签。函数类型必须是小写的。

TagScoringParameters

Object

为标记评分函数提供参数值。

名称	类型	说明
tagsParameter	string	在搜索查询中传递的参数的名称，用于指定要与目标字段进行比较的标记列表。

TextWeights

Object

定义索引字段的权重，这些匹配项应提高搜索查询中的评分。

名称	类型	说明
weights	object	用于提高文档评分的每个字段权重的字典。键是字段名称，值是每个字段的权重。

TokenCharacterKind

枚举

表示令牌筛选器可以作的字符类。

值	说明
letter	将字母保存在标记中。
digit	在标记中保留数字。
whitespace	在标记中保留空格。
punctuation	在标记中保留标点符号。
symbol	将符号保留在标记中。

TokenFilterName

枚举

定义搜索引擎支持的所有令牌过滤器的名称。

值	说明
arabic_normalization	应用阿拉伯语规范化器对正字法进行规范化的标记筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
apostrophe	剥离撇号后的所有字符（包括撇号本身）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
asciifolding	将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	形成从标准分词器生成的 CJK 术语的二元组。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	规范化 CJK 宽度差异。将全角 ASCII 变体折叠为等效的基本拉丁语，将半角片假名变体折叠为等效的假名。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	从首字母缩略词中删除英语所有格和点。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	在索引时为频繁出现的术语构造二元组。单个术语也仍然被索引，双元组叠加。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	从输入标记的前面或背面开始生成给定大小的 n-gram。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	根据 German2 雪球算法的启发式方法对德语字符进行规范化。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	规范化印地语文本以消除拼写变化中的一些差异。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	规范化印度语言文本的 Unicode 表示形式。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	每个传入标记发出两次，一次作为关键字，一次作为非关键字。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	用于英语的高性能 kstem 过滤器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	删除太长或太短的单词。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	限制索引时的令牌数量。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	将标记文本规范化为小写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	生成给定大小的 n-gram。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	对波斯语应用规范化。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	为语音匹配创建标记。看 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	使用 Porter 词干提取算法来转换令牌流。看 http://tartarus.org/~martin/PorterStemmer
reverse	反转令牌字符串。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_normalization	规范可互换的斯堪的纳维亚字符的使用。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
scandinavian_folding	折叠斯堪的纳维亚字符 åÅäæÄÆ-a> 和 öÖøØ-o>。它还歧视使用双元音 aa、ae、ao、oe 和 oo，只留下第一个元音。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
shingle	将令牌组合创建为单个令牌。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	使用 Snowball 生成的词干分析器对单词进行词干的筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	规范化 Sorani 文本的 Unicode 表示形式。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	特定于语言的词干筛选器。看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	从标记流中删除停用词。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	从标记中修剪前导和尾随空格。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	将项截断为特定长度。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	过滤掉与前一个标记具有相同文本的标记。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	将标记文本规范化为大写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	将单词拆分为子词，并对子词组执行可选转换。

TruncateTokenFilter

Object

将项截断为特定长度。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.TruncateTokenFilter		指定令牌筛选器类型的 URI 片段。
length	integer (int32) maximum: 300	300	将截断的术语长度。默认值和最大值为 300。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

UaxUrlEmailTokenizer

Object

将 url 和电子邮件标记为一个标记。此分词器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.UaxUrlEmailTokenizer		指定分词器类型的 URI 片段。
maxTokenLength	integer (int32) maximum: 300	255	最大令牌长度。默认值为 255。长度超过最大长度的令牌将被拆分。可以使用的最大令牌长度为 300 个字符。
name	string		分词器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。

UniqueTokenFilter

Object

过滤掉与前一个标记具有相同文本的标记。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.UniqueTokenFilter		指定令牌筛选器类型的 URI 片段。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
onlyOnSamePosition	boolean	False	指示是否仅删除同一位置的重复项的值。默认值为 false。

VectorEncodingFormat

枚举

用于解释向量字段内容的编码格式。

值	说明
packedBit	编码格式表示打包到更宽数据类型的位。

VectorSearch

Object

包含与矢量搜索相关的配置选项。

名称	类型	说明
algorithms	VectorSearchAlgorithmConfiguration[]: ExhaustiveKnnVectorSearchAlgorithmConfiguration[] HnswVectorSearchAlgorithmConfiguration[]	包含特定于索引或查询期间使用的算法的配置选项。
compressions	VectorSearchCompressionConfiguration[]: BinaryQuantizationVectorSearchCompressionConfiguration[] ScalarQuantizationVectorSearchCompressionConfiguration[]	包含特定于索引或查询期间使用的压缩方法的配置选项。
profiles	VectorSearchProfile[]	定义要与矢量搜索一起使用的配置组合。
vectorizers	VectorSearchVectorizer[]: AzureOpenAIVectorizer[] WebApiVectorizer[]	包含有关如何矢量化文本矢量查询的配置选项。

VectorSearchAlgorithmKind

枚举

用于索引和查询的算法。

值	说明
hnsw	HNSW（Hierarchical Navigable Small World），一种近似最近邻算法。
exhaustiveKnn	详尽的 KNN 算法，将执行暴力搜索。

VectorSearchAlgorithmMetric

枚举

用于向量比较的相似度指标。建议选择与训练嵌入模型相同的相似性指标。

值	说明
cosine	测量向量之间的角度以量化它们的相似性，而不考虑大小。角度越小，相似度越近。
euclidean	计算多维空间中向量之间的直线距离。距离越小，相似度越近。
dotProduct	计算元素乘积的总和，以衡量对齐和大小相似性。越大、越积极，相似度越接近。
hamming	仅适用于位打包的二进制数据类型。通过计算二进制向量中的不同位置来确定差异性。差异越少，相似性越接近。

VectorSearchCompressionKind

枚举

用于索引和查询的压缩方法。

值	说明
scalarQuantization	标量量化，一种压缩方法。在标量量化中，通过使用一组减少的量化值离散化和表示向量的每个分量，将原始向量值压缩为更窄的类型，从而减小整体数据大小。
binaryQuantization	二进制量化，一种压缩方法。在二进制量化中，通过使用二进制值离散化和表示向量的每个分量，将原始向量值压缩为较窄的二进制类型，从而减小整体数据大小。

VectorSearchCompressionRescoreStorageMethod

枚举

用于重新评分和内部索引作的原始全精度向量的存储方法。

值	说明
preserveOriginals	此选项保留原始全精度向量。选择此选项可获得最大的灵活性和最高质量的压缩搜索结果。这会消耗更多存储空间，但允许重新评分和过采样。
discardOriginals	此选项丢弃原始全精度向量。选择此选项可最大限度地节省存储空间。由于此选项不允许重新评分和过采样，因此通常会导致质量轻微到中度下降。

VectorSearchCompressionTargetDataType

枚举

压缩向量值的量化数据类型。

值	说明
int8

VectorSearchProfile

Object

定义要与矢量搜索一起使用的配置组合。

名称	类型	说明
algorithm	string	指定算法和可选参数的矢量搜索算法配置的名称。
compression	string	指定压缩方法和可选参数的压缩方法配置的名称。
name	string	要与此特定向量搜索配置文件关联的名称。
vectorizer	string	配置为用于矢量搜索的矢量化的名称。

VectorSearchVectorizerKind

枚举

查询时要使用的矢量化方法。

值	说明
azureOpenAI	在查询时使用 Azure OpenAI 资源生成嵌入。
customWebApi	在查询时使用自定义 Web 终结点生成嵌入。

WebApiParameters

Object

指定用于连接到用户定义矢量化器的属性。

名称	类型	说明
authIdentity	SearchIndexerDataIdentity: SearchIndexerDataNoneIdentity SearchIndexerDataUserAssignedIdentity	用于出站连接的用户分配的托管标识。如果提供了 authResourceId 但未指定，则使用系统分配的托管标识。在更新索引器时，如果未指定标识，则该值保持不变。如果设置为“none”，则清除此属性的值。
authResourceId	string	适用于连接到 Azure 函数中的外部代码或提供转换的其他应用程序中的自定义终结点。此值应是向 Azure Active Directory 注册时为函数或应用创建的应用程序 ID。指定后，矢量化使用搜索服务的托管 ID（系统或用户分配）和函数或应用的访问令牌连接到函数或应用，并将此值用作创建访问令牌范围的资源 ID。
httpHeaders	object	发出 HTTP 请求所需的标头。
httpMethod	string	HTTP 请求的方法。
timeout	string (duration)	请求的所需超时。默认值为 30 秒。
uri	string (uri)	提供矢量化器的 Web API 的 URI。

WebApiVectorizer

Object

指定用户定义的矢量化器，用于生成查询字符串的矢量嵌入。外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。

名称	类型	说明
customWebApiParameters	WebApiParameters	指定用户定义矢量化器的属性。
kind	string: customWebApi	配置为用于向量搜索的矢量化方法的名称。
name	string	要与此特定矢量化方法关联的名称。

WordDelimiterTokenFilter

Object

将单词拆分为子词，并对子词组执行可选转换。此令牌过滤器是使用 Apache Lucene 实现的。

名称	类型	默认值	说明
@odata.type	string: #Microsoft.Azure.Search.WordDelimiterTokenFilter		指定令牌筛选器类型的 URI 片段。
catenateAll	boolean	False	指示是否将所有子字部分连接的值。例如，如果将其设置为 true，则“Azure-Search-1”将变为“AzureSearch1”。默认值为 false。
catenateNumbers	boolean	False	指示是否将连接编号部分的最大运行量的值。例如，如果将其设置为 true，则“1-2”变为“12”。默认值为 false。
catenateWords	boolean	False	指示是否将对单词部分的最大运行数进行连接的值。例如，如果将其设置为 true，则“Azure-Search”将变为“AzureSearch”。默认值为 false。
generateNumberParts	boolean	True	指示是否生成数字子词的值。默认值为 true。
generateWordParts	boolean	True	指示是否生成部分词的值。如果设置，则导致生成部分单词;例如，“AzureSearch”变为“Azure”“Search”。默认值为 true。
name	string		令牌筛选器的名称。它只能包含字母、数字、空格、破折号或下划线，只能以字母数字字符开头和结尾，并且限制为 128 个字符。
preserveOriginal	boolean	False	指示是否保留原始单词并将其添加到子单词列表中的值。默认值为 false。
protectedWords	string[]		要防止分隔的令牌列表。
splitOnCaseChange	boolean	True	指示是否在 caseChange 上拆分单词的值。例如，如果将其设置为 true，则“AzureSearch”将变为“Azure”“Search”。默认值为 true。
splitOnNumerics	boolean	True	指示是否对数字进行拆分的值。例如，如果将其设置为 true，则“Azure1Search”将变为“Azure”“1”Search“。默认值为 true。
stemEnglishPossessive	boolean	True	指示是否删除每个子词的尾随“'s”的值。默认值为 true。