Indexes - Create
创建新的搜索索引。
POST {endpoint}/indexes?api-version=2025-09-01
URI 参数
| 名称 | 在 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
|
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
随请求一起发送的跟踪 ID,以帮助调试。 |
请求正文
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| fields | True |
索引的字段。 |
|
| name | True |
string |
索引的名称。 |
| @odata.etag |
string |
索引的 ETag。 |
|
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
| charFilters | CharFilter[]: |
索引的字符筛选器。 |
|
| corsOptions |
用于控制索引的跨域资源共享 (CORS) 的选项。 |
||
| defaultScoringProfile |
string |
如果查询中未指定任何评分配置文件,则要使用的评分配置文件的名称。 如果未设置此属性,并且在查询中未指定评分配置文件,则将使用默认评分 (tf-idf)。 |
|
| description |
string |
索引的描述。 |
|
| encryptionKey |
在 Azure Key Vault 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;您的数据将不受影响。 使用客户管理的密钥进行加密不适用于免费搜索服务,仅适用于 2019 年 1 月 1 日或之后创建的付费服务。 |
||
| normalizers | LexicalNormalizer[]: |
索引的规范化器。 |
|
| scoringProfiles |
索引的评分配置文件。 |
||
| semantic |
定义影响语义功能的搜索索引的参数。 |
||
| similarity | Similarity: |
对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能在现有索引上进行修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
|
| suggesters |
索引的建议。 |
||
| tokenFilters |
TokenFilter[]:
|
索引的令牌筛选器。 |
|
| tokenizers | LexicalTokenizer[]: |
索引的分词器。 |
|
| vectorSearch |
包含与矢量搜索相关的配置选项。 |
响应
| 名称 | 类型 | 说明 |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
错误响应。 |
示例
SearchServiceCreateIndex
示例请求
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
示例响应
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
定义
| 名称 | 说明 |
|---|---|
|
Ascii |
将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Azure |
为搜索服务创建的已注册应用程序的凭据,用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。 |
|
Azure |
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。 |
|
Azure |
将调用的 Azure Open AI 模型名称。 |
|
Azure |
指定用于连接到 Azure OpenAI 资源的参数。 |
|
Azure |
指定用于矢量化查询字符串的 Azure OpenAI 资源。 |
|
Binary |
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。 |
| BM25Similarity |
基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法,包括长度归一化(由“b”参数控制)以及项频率饱和度(由“k1”参数控制)。 |
|
Char |
定义搜索引擎支持的所有字符过滤器的名称。 |
|
Cjk |
形成从标准分词器生成的 CJK 术语的二元组。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Cjk |
CjkBigramTokenFilter 可以忽略的脚本。 |
|
Classic |
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。 |
|
Classic |
基于语法的分词器,适用于处理大多数欧洲语言文档。 此分词器是使用 Apache Lucene 实现的。 |
|
Common |
在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Cors |
定义用于控制索引的跨域资源共享 (CORS) 的选项。 |
|
Custom |
允许您控制将文本转换为可索引/可搜索标记的过程。 它是一个用户定义的配置,由单个预定义分词器和一个或多个过滤器组成。 分词器负责将文本分解为标记,过滤器负责修改分词器发出的标记。 |
|
Custom |
允许您为可过滤、可排序和可分面字段配置规范化,默认情况下,这些字段以严格匹配的方式运行。 这是一个用户定义的配置,由至少一个或多个过滤器组成,这些过滤器修改存储的令牌。 |
|
Dictionary |
分解许多日耳曼语言中的复合词。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Distance |
定义一个函数,该函数根据与地理位置的距离提高分数。 |
|
Distance |
为距离评分函数提供参数值。 |
|
Edge |
从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Edge |
指定应从输入的哪一侧生成 n-gram。 |
|
Edge |
从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Edge |
将来自边的输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。 |
|
Elision |
删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Error |
资源管理错误附加信息。 |
|
Error |
错误详细信息。 |
|
Error |
错误响应 |
|
Exhaustive |
包含特定于穷尽 KNN 算法的参数。 |
|
Exhaustive |
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将对整个向量索引执行暴力搜索。 |
|
Freshness |
定义一个函数,该函数根据日期时间字段的值提高分数。 |
|
Freshness |
为新鲜度评分函数提供参数值。 |
|
Hnsw |
包含特定于 HNSW 算法的参数。 |
|
Hnsw |
包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。 |
|
Input |
技能的输入字段映射。 |
|
Keep |
一种令牌筛选器,仅保留指定单词列表中包含文本的令牌。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Keyword |
将术语标记为关键字。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Keyword |
将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。 |
|
Keyword |
将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。 |
|
Length |
删除太长或太短的单词。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
|
Lexical |
定义搜索引擎支持的所有文本规范化器的名称。 |
|
Lexical |
定义搜索引擎支持的所有分词器的名称。 |
|
Limit |
限制索引时的令牌数量。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Lucene |
标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。 |
|
Lucene |
按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。 |
|
Lucene |
按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。 |
|
Magnitude |
定义一个函数,该函数根据数值字段的大小提高分数。 |
|
Magnitude |
为幅度评分函数提供参数值。 |
|
Mapping |
应用使用 mappings 选项定义的映射的字符过滤器。 匹配是贪婪的(在给定点上最长的模式匹配获胜)。 允许替换为空字符串。 此字符过滤器是使用 Apache Lucene 实现的。 |
|
Microsoft |
使用特定于语言的规则划分文本,并将单词简化为基本形式。 |
|
Microsoft |
使用特定于语言的规则划分文本。 |
|
Microsoft |
列出 Microsoft 语言词干提取器支持的语言。 |
|
Microsoft |
列出 Microsoft 语言分词器支持的语言。 |
|
NGram |
生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
NGram |
生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
NGram |
将输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。 |
|
Output |
技能的输出字段映射。 |
|
Path |
用于类似路径的层次结构的分词器。 此分词器是使用 Apache Lucene 实现的。 |
|
Pattern |
通过正则表达式模式灵活地将文本分隔为术语。 此分析器是使用 Apache Lucene 实现的。 |
|
Pattern |
使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Pattern |
替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此字符过滤器是使用 Apache Lucene 实现的。 |
|
Pattern |
替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Pattern |
使用正则表达式模式匹配来构造不同标记的标记器。 此分词器是使用 Apache Lucene 实现的。 |
|
Phonetic |
标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。 |
|
Phonetic |
为语音匹配创建标记。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Prioritized |
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 |
|
Ranking |
表示用于文档排序顺序的分数。 |
|
Regex |
定义可以组合的标志,以控制正则表达式在模式分析器和模式分词器中的使用方式。 |
|
Rescoring |
包含重新评分的选项。 |
|
Scalar |
包含特定于标量量化的参数。 |
|
Scalar |
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。 |
|
Scoring |
定义用于组合评分配置文件中所有评分函数的结果的聚合函数。 |
|
Scoring |
定义用于在一系列文档中插值分数提升的函数。 |
|
Scoring |
定义影响搜索查询评分的搜索索引的参数。 |
|
Search |
表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。 |
|
Search |
定义搜索索引中字段的数据类型。 |
|
Search |
表示搜索索引定义,它描述索引的字段和搜索行为。 |
|
Search |
清除数据源的标识属性。 |
|
Search |
指定要使用的数据源的标识。 |
|
Search |
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。 |
|
Semantic |
定义要在语义功能上下文中使用的特定配置。 |
|
Semantic |
用作语义配置一部分的字段。 |
|
Semantic |
定义影响语义功能的搜索索引的参数。 |
|
Shingle |
将令牌组合创建为单个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Snowball |
使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Snowball |
用于 Snowball 令牌筛选器的语言。 |
|
Stemmer |
提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。 任何词干词干术语都将被标记为关键字,这样它们就不会被链下游的词干分析器所用词干词干处理。 必须放置在任何词干过滤器之前。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Stemmer |
特定于语言的词干筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Stemmer |
用于词干分析器标记筛选器的语言。 |
|
Stop |
在非字母处划分文本;应用小写和停用词标记筛选器。 此分析器是使用 Apache Lucene 实现的。 |
|
Stopwords |
标识特定于语言的停用词的预定义列表。 |
|
Stopwords |
从标记流中删除停用词。 此令牌过滤器是使用 Apache Lucene 实现的。 |
| Suggester |
定义建议 API 应如何应用于索引中的一组字段。 |
|
Suggester |
指示建议器功能的值。 |
|
Synonym |
匹配令牌流中的单个或多个单词同义词。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Tag |
定义一个函数,用于提升字符串值与给定标记列表匹配的文档的分数。 |
|
Tag |
为标记评分函数提供参数值。 |
|
Text |
定义索引字段的权重,这些匹配项应提高搜索查询中的评分。 |
|
Token |
表示令牌筛选器可以作的字符类。 |
|
Token |
定义搜索引擎支持的所有令牌过滤器的名称。 |
|
Truncate |
将项截断为特定长度。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Uax |
将 url 和电子邮件标记为一个标记。 此分词器是使用 Apache Lucene 实现的。 |
|
Unique |
过滤掉与前一个标记具有相同文本的标记。 此令牌过滤器是使用 Apache Lucene 实现的。 |
|
Vector |
用于解释向量字段内容的编码格式。 |
|
Vector |
包含与矢量搜索相关的配置选项。 |
|
Vector |
用于索引和查询的算法。 |
|
Vector |
用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。 |
|
Vector |
用于索引和查询的压缩方法。 |
|
Vector |
用于重新评分和内部索引作的原始全精度向量的存储方法。 |
|
Vector |
压缩向量值的量化数据类型。 |
|
Vector |
定义要与矢量搜索一起使用的配置组合。 |
|
Vector |
查询时要使用的矢量化方法。 |
|
Web |
指定用于连接到用户定义矢量化器的属性。 |
|
Web |
指定用户定义的矢量化器,用于生成查询字符串的矢量嵌入。 外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。 |
|
Word |
将单词拆分为子词,并对子词组执行可选转换。 此令牌过滤器是使用 Apache Lucene 实现的。 |
AsciiFoldingTokenFilter
将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| preserveOriginal |
boolean |
False |
指示是否保留原始令牌的值。 默认值为 false。 |
AzureActiveDirectoryApplicationCredentials
为搜索服务创建的已注册应用程序的凭据,用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。
| 名称 | 类型 | 说明 |
|---|---|---|
| applicationId |
string |
向 Azure Key Vault 授予所需的访问权限的 AAD 应用程序 ID,该权限将在加密静态数据时使用。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。 |
| applicationSecret |
string |
指定 AAD 应用程序的身份验证密钥。 |
AzureOpenAIEmbeddingSkill
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
| apiKey |
string |
指定 Azure OpenAI 资源的 API 密钥。 |
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
| context |
string |
表示执行作的级别,例如文档根目录或文档内容(例如,/document 或 /document/content)。 默认值为 /document。 |
| deploymentId |
string |
指定资源上 Azure OpenAI 模型部署的 ID。 |
| description |
string |
描述技能的描述,描述技能的输入、输出和用法。 |
| dimensions |
integer (int32) |
生成的输出嵌入应有的维度数。 仅在 text-embedding-3 及更高版本中受支持。 |
| inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
| modelName |
部署在提供的 deploymentId 路径上的嵌入模型的名称。 |
|
| name |
string |
在技能集中唯一标识它的技能的名称。 未定义名称的技能将在技能数组中为其从 1 开始的索引的默认名称,前缀为字符“#”。 |
| outputs |
技能的输出要么是搜索索引中的字段,要么是可作为其他技能输入使用的值。 |
|
| resourceUri |
string (uri) |
Azure OpenAI 资源的资源 URI。 |
AzureOpenAIModelName
将调用的 Azure Open AI 模型名称。
| 值 | 说明 |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
指定用于连接到 Azure OpenAI 资源的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| apiKey |
string |
指定 Azure OpenAI 资源的 API 密钥。 |
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
| deploymentId |
string |
指定资源上 Azure OpenAI 模型部署的 ID。 |
| modelName |
部署在提供的 deploymentId 路径上的嵌入模型的名称。 |
|
| resourceUri |
string (uri) |
Azure OpenAI 资源的资源 URI。 |
AzureOpenAIVectorizer
指定用于矢量化查询字符串的 Azure OpenAI 资源。
| 名称 | 类型 | 说明 |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
包含特定于 Azure OpenAI 嵌入矢量化的参数。 |
| kind |
string:
azure |
配置为用于向量搜索的矢量化方法的名称。 |
| name |
string |
要与此特定矢量化方法关联的名称。 |
BinaryQuantizationVectorSearchCompressionConfiguration
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| kind |
string:
binary |
配置为与矢量搜索一起使用的压缩方法类型的名称。 |
| name |
string |
要与此特定配置关联的名称。 |
| rescoringOptions |
包含重新评分的选项。 |
|
| truncationDimension |
integer (int32) |
要截断向量的维数。 截断向量可以减小向量的大小和搜索期间需要传输的数据量。 这可以节省存储成本并提高搜索性能,但代价是召回率。 它只能用于使用套娃表示学习 (MRL) 训练的嵌入,例如 OpenAI text-embedding-3-large (small)。 默认值为 null,这意味着没有截断。 |
BM25Similarity
基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法,包括长度归一化(由“b”参数控制)以及项频率饱和度(由“k1”参数控制)。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值 0.0 表示不应用长度规范化,而值 1.0 表示分数按文档长度完全规范化。 |
| k1 |
number (double) |
此属性控制每个匹配术语的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值 0.0 表示分数不会随着术语频率的增加而缩放。 |
CharFilterName
定义搜索引擎支持的所有字符过滤器的名称。
| 值 | 说明 |
|---|---|
| html_strip |
尝试剥离 HTML 构造的字符过滤器。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成从标准分词器生成的 CJK 术语的二元组。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| ignoreScripts |
要忽略的脚本。 |
||
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| outputUnigrams |
boolean |
False |
一个值,指示是同时输出单元组和双元组(如果为 true),还是仅输出双元组(如果为 false)。 默认值为 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的脚本。
| 值 | 说明 |
|---|---|
| han |
在形成中日韩术语的二元组时忽略汉文字。 |
| hiragana |
在形成 CJK 术语的二元组时忽略平假名脚本。 |
| katakana |
在形成 CJK 术语的二元组时忽略片假名脚本。 |
| hangul |
在形成 CJK 术语的二元组时忽略韩文脚本。 |
ClassicSimilarity
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
基于语法的分词器,适用于处理大多数欧洲语言文档。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
CommonGramTokenFilter
在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| commonWords |
string[] |
常用词集。 |
|
| ignoreCase |
boolean |
False |
指示常用单词匹配是否不区分大小写的值。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| queryMode |
boolean |
False |
指示令牌筛选器是否处于查询模式的值。 在查询模式下,令牌筛选器会生成二元组,然后删除常用单词和单个术语,然后删除一个常用单词。 默认值为 false。 |
CorsOptions
定义用于控制索引的跨域资源共享 (CORS) 的选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| allowedOrigins |
string[] |
JavaScript 代码将被授予对索引访问权限的来源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不推荐)。 |
| maxAgeInSeconds |
integer (int64) |
浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。 |
CustomAnalyzer
允许您控制将文本转换为可索引/可搜索标记的过程。 它是一个用户定义的配置,由单个预定义分词器和一个或多个过滤器组成。 分词器负责将文本分解为标记,过滤器负责修改分词器发出的标记。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
| charFilters |
用于在分词器处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。 |
|
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| tokenFilters |
用于过滤掉或修改分词器生成的令牌的令牌过滤器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。 |
|
| tokenizer |
用于将连续文本划分为一系列标记的标记器的名称,例如将句子分解为单词。 |
CustomNormalizer
允许您为可过滤、可排序和可分面字段配置规范化,默认情况下,这些字段以严格匹配的方式运行。 这是一个用户定义的配置,由至少一个或多个过滤器组成,这些过滤器修改存储的令牌。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定规范化程序类型的 URI 片段。 |
| charFilters |
用于在处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。 |
|
| name |
string |
规范化器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 它不能以“.microsoft”或“.lucene”结尾,也不能命名为“asciifolding”、“standard”、“lowercase”、“uppercase”或“elision”。 |
| tokenFilters |
用于过滤或修改输入令牌的令牌筛选器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。 |
DictionaryDecompounderTokenFilter
分解许多日耳曼语言中的复合词。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
最大子字大小。 仅输出短于此的子词。 默认为 15. 最大值为 300。 |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
最小子字大小。 仅输出比此长度更长的子词。 默认值为 2。 最大值为 300。 |
| minWordSize |
integer (int32) maximum: 300 |
5 |
最小字数。 只有比这更长的单词才会被处理。 默认值为 5。 最大值为 300。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| onlyLongestMatch |
boolean |
False |
指示是否仅将最长的匹配子词添加到输出中的值。 默认值为 false。 |
| wordList |
string[] |
要匹配的单词列表。 |
DistanceScoringFunction
定义一个函数,该函数根据与地理位置的距离提高分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| distance |
距离评分函数的参数值。 |
|
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,指示如何在文档分数之间插值提升;默认为“线性”。 |
|
| type |
string:
distance |
指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。 |
DistanceScoringParameters
为距离评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingDistance |
number (double) |
距提升范围结束的参考位置的距离(以公里为单位)。 |
| referencePointParameter |
string |
在搜索查询中传递的用于指定引用位置的参数的名称。 |
EdgeNGramTokenFilter
从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| maxGram |
integer (int32) |
2 |
最大 n-gram 长度。 默认值为 2。 |
| minGram |
integer (int32) |
1 |
最小 n-gram 长度。 默认值为 1。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| side | front |
指定应从输入的哪一侧生成 n-gram。 默认值为“front”。 |
EdgeNGramTokenFilterSide
指定应从输入的哪一侧生成 n-gram。
| 值 | 说明 |
|---|---|
| front |
指定应从输入的前面生成 n-gram。 |
| back |
指定应从输入的背面生成 n-gram。 |
EdgeNGramTokenFilterV2
从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n-gram 长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| side | front |
指定应从输入的哪一侧生成 n-gram。 默认值为“front”。 |
EdgeNGramTokenizer
将来自边的输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n-gram 长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| tokenChars |
要保留在令牌中的字符类。 |
ElisionTokenFilter
删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
| articles |
string[] |
要删除的文章集。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
ErrorAdditionalInfo
资源管理错误附加信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| info |
object |
其他信息。 |
| type |
string |
其他信息类型。 |
ErrorDetail
错误详细信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| additionalInfo |
错误附加信息。 |
|
| code |
string |
错误代码。 |
| details |
错误详细信息。 |
|
| message |
string |
错误消息。 |
| target |
string |
错误目标。 |
ErrorResponse
错误响应
| 名称 | 类型 | 说明 |
|---|---|---|
| error |
错误对象。 |
ExhaustiveKnnParameters
包含特定于穷尽 KNN 算法的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| metric |
用于向量比较的相似度指标。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将对整个向量索引执行暴力搜索。
| 名称 | 类型 | 说明 |
|---|---|---|
| exhaustiveKnnParameters |
包含特定于穷尽 KNN 算法的参数。 |
|
| kind |
string:
exhaustive |
配置为用于矢量搜索的算法类型的名称。 |
| name |
string |
要与此特定配置关联的名称。 |
FreshnessScoringFunction
定义一个函数,该函数根据日期时间字段的值提高分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| freshness |
新鲜度评分函数的参数值。 |
|
| interpolation |
一个值,指示如何在文档分数之间插值提升;默认为“线性”。 |
|
| type |
string:
freshness |
指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。 |
FreshnessScoringParameters
为新鲜度评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingDuration |
string (duration) |
特定文档的加速将停止的到期期限。 |
HnswParameters
包含特定于 HNSW 算法的参数。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
包含最近邻的动态列表的大小,在索引时使用。 增加此参数可能会提高索引质量,但代价是索引时间增加。 在某个时候,增加该参数会导致收益递减。 |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
包含最近邻的动态列表的大小,在搜索时使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加该参数会导致收益递减。 |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
在构造期间为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加和索引时间延长。 |
| metric |
用于向量比较的相似度指标。 |
HnswVectorSearchAlgorithmConfiguration
包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。
| 名称 | 类型 | 说明 |
|---|---|---|
| hnswParameters |
包含特定于 HNSW 算法的参数。 |
|
| kind |
string:
hnsw |
配置为用于矢量搜索的算法类型的名称。 |
| name |
string |
要与此特定配置关联的名称。 |
InputFieldMappingEntry
技能的输入字段映射。
| 名称 | 类型 | 说明 |
|---|---|---|
| inputs |
创建复杂类型时使用的递归输入。 |
|
| name |
string |
输入的名称。 |
| source |
string |
输入的源。 |
| sourceContext |
string |
用于选择递归输入的源上下文。 |
KeepTokenFilter
一种令牌筛选器,仅保留指定单词列表中包含文本的令牌。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| keepWords |
string[] |
要保留的单词列表。 |
|
| keepWordsCase |
boolean |
False |
指示是否先将所有单词小写的值。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordMarkerTokenFilter
将术语标记为关键字。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| ignoreCase |
boolean |
False |
指示是否忽略大小写的值。 如果为 true,则所有单词首先转换为小写。 默认值为 false。 |
| keywords |
string[] |
要标记为关键字的单词列表。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizer
将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| bufferSize |
integer (int32) |
256 |
读取缓冲区大小(以字节为单位)。 默认值为 256。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizerV2
将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
最大令牌长度。 默认值为 256。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LengthTokenFilter
删除太长或太短的单词。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| max |
integer (int32) maximum: 300 |
300 |
最大长度(以字符为单位)。 默认值和最大值为 300。 |
| min |
integer (int32) maximum: 300 |
0 |
最小长度(以字符为单位)。 默认为 0。 最大值为 300。 必须小于 max 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
| 值 | 说明 |
|---|---|
| ar.microsoft |
Microsoft 阿拉伯语分析器。 |
| ar.lucene |
阿拉伯语 Lucene 分析仪。 |
| hy.lucene |
亚美尼亚语的 Lucene 分析仪。 |
| bn.microsoft |
适用于孟加拉语的 Microsoft 分析器。 |
| eu.lucene |
用于巴斯克语的 Lucene 分析仪。 |
| bg.microsoft |
保加利亚语的 Microsoft 分析器。 |
| bg.lucene |
保加利亚语的 Lucene 分析仪。 |
| ca.microsoft |
适用于加泰罗尼亚语的 Microsoft 分析器。 |
| ca.lucene |
用于加泰罗尼亚语的 Lucene 分析仪。 |
| zh-Hans.microsoft |
Microsoft 中文分析器(简体)。 |
| zh-Hans.lucene |
Lucene 中文分析仪(简体)。 |
| zh-Hant.microsoft |
Microsoft 中文分析器(繁体)。 |
| zh-Hant.lucene |
Lucene 中文分析仪(繁体)。 |
| hr.microsoft |
克罗地亚语的 Microsoft 分析器。 |
| cs.microsoft |
捷克语的 Microsoft 分析器。 |
| cs.lucene |
捷克的 Lucene 分析仪。 |
| da.microsoft |
丹麦语的 Microsoft 分析器。 |
| da.lucene |
丹麦语 Lucene 分析仪。 |
| nl.microsoft |
适用于荷兰语的 Microsoft 分析器。 |
| nl.lucene |
荷兰语的 Lucene 分析仪。 |
| en.microsoft |
Microsoft Analyzer for English。 |
| en.lucene |
Lucene 分析仪,用于英语。 |
| et.microsoft |
爱沙尼亚语的 Microsoft 分析器。 |
| fi.microsoft |
芬兰语的 Microsoft 分析器。 |
| fi.lucene |
芬兰语的 Lucene 分析仪。 |
| fr.microsoft |
法语的 Microsoft 分析器。 |
| fr.lucene |
法语 Lucene 分析仪。 |
| gl.lucene |
用于加利西亚语的 Lucene 分析仪。 |
| de.microsoft |
德语的 Microsoft 分析器。 |
| de.lucene |
德语 Lucene 分析仪。 |
| el.microsoft |
希腊语的 Microsoft 分析器。 |
| el.lucene |
希腊语 Lucene 分析仪。 |
| gu.microsoft |
古吉拉特语的 Microsoft 分析器。 |
| he.microsoft |
希伯来语的 Microsoft 分析器。 |
| hi.microsoft |
印地语的 Microsoft 分析器。 |
| hi.lucene |
印地语 Lucene 分析仪。 |
| hu.microsoft |
匈牙利语的 Microsoft 分析器。 |
| hu.lucene |
匈牙利语的 Lucene 分析仪。 |
| is.microsoft |
冰岛语的 Microsoft 分析器。 |
| id.microsoft |
Microsoft 印度尼西亚语分析器 (印尼语)。 |
| id.lucene |
印度尼西亚语的 Lucene 分析仪。 |
| ga.lucene |
爱尔兰语 Lucene 分析仪。 |
| it.microsoft |
意大利语的 Microsoft 分析器。 |
| it.lucene |
意大利语 Lucene 分析仪。 |
| ja.microsoft |
日语的 Microsoft 分析器。 |
| ja.lucene |
日语 Lucene 分析仪。 |
| kn.microsoft |
适用于卡纳达语的 Microsoft 分析器。 |
| ko.microsoft |
韩语的 Microsoft 分析器。 |
| ko.lucene |
韩语Lucene分析仪。 |
| lv.microsoft |
Microsoft Analyzer for Latvian。 |
| lv.lucene |
拉脱维亚的 Lucene 分析仪。 |
| lt.microsoft |
立陶宛语的 Microsoft 分析器。 |
| ml.microsoft |
适用于马拉雅拉姆语的 Microsoft 分析器。 |
| ms.microsoft |
Microsoft 马来语分析器(拉丁语)。 |
| mr.microsoft |
Microsoft 马拉地语分析器。 |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål)。 |
| no.lucene |
挪威的 Lucene 分析仪。 |
| fa.lucene |
用于波斯语的 Lucene 分析仪。 |
| pl.microsoft |
适用于波兰语的 Microsoft 分析器。 |
| pl.lucene |
用于波兰语的 Lucene 分析仪。 |
| pt-BR.microsoft |
葡萄牙语(巴西)的 Microsoft 分析器。 |
| pt-BR.lucene |
葡萄牙语(巴西)的 Lucene 分析仪。 |
| pt-PT.microsoft |
Microsoft Analyzer for Portuguese (葡萄牙) 。 |
| pt-PT.lucene |
葡萄牙语(葡萄牙)的 Lucene 分析仪。 |
| pa.microsoft |
旁遮普语的 Microsoft 分析器。 |
| ro.microsoft |
罗马尼亚语的 Microsoft 分析器。 |
| ro.lucene |
罗马尼亚语的 Lucene 分析仪。 |
| ru.microsoft |
俄语的 Microsoft 分析器。 |
| ru.lucene |
俄语 Lucene 分析仪。 |
| sr-cyrillic.microsoft |
塞尔维亚语(西里尔文)的 Microsoft 分析器。 |
| sr-latin.microsoft |
Microsoft 塞尔维亚语分析器(拉丁语)。 |
| sk.microsoft |
Microsoft Analyzer for Slovak。 |
| sl.microsoft |
Microsoft 分析器 for Slovenian。 |
| es.microsoft |
西班牙语的 Microsoft 分析器。 |
| es.lucene |
西班牙语的 Lucene 分析仪。 |
| sv.microsoft |
瑞典语的 Microsoft 分析器。 |
| sv.lucene |
瑞典语 Lucene 分析仪。 |
| ta.microsoft |
泰米尔语的 Microsoft 分析器。 |
| te.microsoft |
泰卢固语的 Microsoft 分析器。 |
| th.microsoft |
适用于泰语的 Microsoft 分析器。 |
| th.lucene |
泰式 Lucene 分析仪。 |
| tr.microsoft |
土耳其语的 Microsoft 分析器。 |
| tr.lucene |
土耳其语 Lucene 分析仪。 |
| uk.microsoft |
乌克兰语的 Microsoft 分析器。 |
| ur.microsoft |
乌尔都语的 Microsoft 分析器。 |
| vi.microsoft |
Microsoft 越南语分析器。 |
| standard.lucene |
标准 Lucene 分析仪。 |
| standardasciifolding.lucene |
标准 ASCII 折叠 Lucene 分析仪。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据很有用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
通过正则表达式模式灵活地将文本分隔为术语。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
在非字母处划分文本;应用小写和停用词标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
使用空格分词器的分析器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
定义搜索引擎支持的所有文本规范化器的名称。
| 值 | 说明 |
|---|---|
| asciifolding |
将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
标准归一化器,由小写和 asciifolding 组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定义搜索引擎支持的所有分词器的名称。
LimitTokenFilter
限制索引时的令牌数量。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| consumeAllTokens |
boolean |
False |
一个值,指示即使达到 maxTokenCount,是否也必须使用输入中的所有令牌。 默认值为 false。 |
| maxTokenCount |
integer (int32) |
1 |
要生成的最大令牌数。 默认值为 1。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardAnalyzer
标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| stopwords |
string[] |
停用词列表。 |
LuceneStandardTokenizer
按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) |
255 |
最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardTokenizerV2
按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MagnitudeScoringFunction
定义一个函数,该函数根据数值字段的大小提高分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,指示如何在文档分数之间插值提升;默认为“线性”。 |
|
| magnitude |
幅度评分函数的参数值。 |
|
| type |
string:
magnitude |
指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。 |
MagnitudeScoringParameters
为幅度评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingRangeEnd |
number (double) |
提升结束的字段值。 |
| boostingRangeStart |
number (double) |
开始提升的字段值。 |
| constantBoostBeyondRange |
boolean |
指示是否对超出范围结束值的字段值应用恒定提升的值;默认值为 false。 |
MappingCharFilter
应用使用 mappings 选项定义的映射的字符过滤器。 匹配是贪婪的(在给定点上最长的模式匹配获胜)。 允许替换为空字符串。 此字符过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定字符过滤器类型的 URI 片段。 |
| mappings |
string[] |
以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。 |
| name |
string |
字符过滤器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageStemmingTokenizer
使用特定于语言的规则划分文本,并将单词简化为基本形式。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| isSearchTokenizer |
boolean |
False |
指示如何使用分词器的值。 如果用作搜索分词器,则设置为 true,如果用作索引分词器,则设置为 false。 默认值为 false。 |
| language |
要使用的语言。 默认值为英语。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageTokenizer
使用特定于语言的规则划分文本。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| isSearchTokenizer |
boolean |
False |
指示如何使用分词器的值。 如果用作搜索分词器,则设置为 true,如果用作索引分词器,则设置为 false。 默认值为 false。 |
| language |
要使用的语言。 默认值为英语。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftStemmingTokenizerLanguage
列出 Microsoft 语言词干提取器支持的语言。
| 值 | 说明 |
|---|---|
| arabic |
选择阿拉伯语的 Microsoft 词干提取器。 |
| bangla |
选择孟加拉语的 Microsoft 词干提取器。 |
| bulgarian |
选择保加利亚语的 Microsoft 词干提取器。 |
| catalan |
选择加泰罗尼亚语的 Microsoft 词干提取器。 |
| croatian |
选择克罗地亚语的 Microsoft 词干提取器。 |
| czech |
选择捷克语的 Microsoft 词干提取器。 |
| danish |
选择丹麦语的 Microsoft 词干提取器。 |
| dutch |
选择荷兰语的 Microsoft 词干提取器。 |
| english |
选择英语的 Microsoft 词干标记器。 |
| estonian |
选择爱沙尼亚语的 Microsoft 词干标记器。 |
| finnish |
选择芬兰语的 Microsoft 词干提取器。 |
| french |
选择法语的 Microsoft 词干提取器。 |
| german |
选择德语的 Microsoft 词干提取分词器。 |
| greek |
选择希腊语的 Microsoft 词干提取器。 |
| gujarati |
选择古吉拉特语的 Microsoft 词干提取标记器。 |
| hebrew |
选择希伯来语的 Microsoft 词干提取器。 |
| hindi |
选择印地语的 Microsoft 词干标记器。 |
| hungarian |
选择匈牙利语的 Microsoft 词干提取器。 |
| icelandic |
选择冰岛语的 Microsoft 词干提取分词器。 |
| indonesian |
选择印度尼西亚语的 Microsoft 词干提取器。 |
| italian |
选择意大利语的 Microsoft 词干提取器。 |
| kannada |
选择卡纳达语的 Microsoft 词干提取器。 |
| latvian |
选择拉脱维亚语的 Microsoft 词干提取标记器。 |
| lithuanian |
选择立陶宛语的 Microsoft 词干标记器。 |
| malay |
选择马来语的 Microsoft 词干提取分词器。 |
| malayalam |
选择马拉雅拉姆语的 Microsoft 词干提取器。 |
| marathi |
选择马拉地语的 Microsoft 词干提取器。 |
| norwegianBokmaal |
选择挪威语 (Bokmål) 的 Microsoft 词干提取器。 |
| polish |
选择波兰语的 Microsoft 词干提取分词器。 |
| portuguese |
选择葡萄牙语的 Microsoft 词干提取分词器。 |
| portugueseBrazilian |
选择葡萄牙语(巴西)的 Microsoft 词干提取器。 |
| punjabi |
选择旁遮普语的 Microsoft 词干提取器。 |
| romanian |
选择罗马尼亚语的 Microsoft 词干提取分词器。 |
| russian |
选择俄语的 Microsoft 词干标记器。 |
| serbianCyrillic |
选择塞尔维亚语(西里尔文)的 Microsoft 词干提取器。 |
| serbianLatin |
选择塞尔维亚语(拉丁语)的 Microsoft 词干提取分词器。 |
| slovak |
选择斯洛伐克语的 Microsoft 词干提取器。 |
| slovenian |
选择斯洛文尼亚语的 Microsoft 词干提取器。 |
| spanish |
选择西班牙语的 Microsoft 词干标记器。 |
| swedish |
选择瑞典语的 Microsoft 词干提取分词器。 |
| tamil |
选择泰米尔语的 Microsoft 词干提取器。 |
| telugu |
选择泰卢固语的 Microsoft 词干提取器。 |
| turkish |
选择土耳其语的 Microsoft 词干提取器。 |
| ukrainian |
选择乌克兰语的 Microsoft 词干提取器。 |
| urdu |
选择乌尔都语的 Microsoft 词干提取器。 |
MicrosoftTokenizerLanguage
列出 Microsoft 语言分词器支持的语言。
| 值 | 说明 |
|---|---|
| bangla |
选择孟加拉语的 Microsoft 分词器。 |
| bulgarian |
选择保加利亚语的 Microsoft 分词器。 |
| catalan |
选择加泰罗尼亚语的 Microsoft 分词器。 |
| chineseSimplified |
选择中文的 Microsoft 分词器(简体)。 |
| chineseTraditional |
选择中文(繁体)的 Microsoft 分词器。 |
| croatian |
选择克罗地亚语的 Microsoft 分词器。 |
| czech |
选择捷克语的 Microsoft 分词器。 |
| danish |
选择丹麦语的 Microsoft 分词器。 |
| dutch |
选择荷兰语的 Microsoft 分词器。 |
| english |
选择英语的 Microsoft 分词器。 |
| french |
选择法语的 Microsoft 分词器。 |
| german |
选择德语的 Microsoft 分词器。 |
| greek |
选择希腊语的 Microsoft 分词器。 |
| gujarati |
选择古吉拉特语的 Microsoft 分词器。 |
| hindi |
选择印地语的 Microsoft 分词器。 |
| icelandic |
选择冰岛语的 Microsoft 分词器。 |
| indonesian |
选择印度尼西亚语的 Microsoft 分词器。 |
| italian |
选择意大利语的 Microsoft 分词器。 |
| japanese |
选择日语的 Microsoft 分词器。 |
| kannada |
选择卡纳达语的 Microsoft 分词器。 |
| korean |
选择韩语的 Microsoft 分词器。 |
| malay |
选择马来语的 Microsoft 分词器。 |
| malayalam |
选择马拉雅拉姆语的 Microsoft 分词器。 |
| marathi |
选择马拉地语的 Microsoft 分词器。 |
| norwegianBokmaal |
选择挪威语 (Bokmål) 的 Microsoft 分词器。 |
| polish |
选择波兰语的 Microsoft 分词器。 |
| portuguese |
选择葡萄牙语的 Microsoft 分词器。 |
| portugueseBrazilian |
选择葡萄牙语(巴西)的 Microsoft 分词器。 |
| punjabi |
选择旁遮普语的 Microsoft 分词器。 |
| romanian |
选择罗马尼亚语的 Microsoft 分词器。 |
| russian |
选择俄语的 Microsoft 分词器。 |
| serbianCyrillic |
选择塞尔维亚语(西里尔文)的 Microsoft 分词器。 |
| serbianLatin |
选择塞尔维亚语(拉丁语)的 Microsoft 分词器。 |
| slovenian |
选择斯洛文尼亚语的 Microsoft 分词器。 |
| spanish |
选择西班牙语的 Microsoft 分词器。 |
| swedish |
选择瑞典语的 Microsoft 分词器。 |
| tamil |
选择泰米尔语的 Microsoft 分词器。 |
| telugu |
选择泰卢固语的 Microsoft 分词器。 |
| thai |
选择泰语的 Microsoft 分词器。 |
| ukrainian |
选择乌克兰语的 Microsoft 分词器。 |
| urdu |
选择乌尔都语的 Microsoft 分词器。 |
| vietnamese |
选择越南语的 Microsoft 分词器。 |
NGramTokenFilter
生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| maxGram |
integer (int32) |
2 |
最大 n-gram 长度。 默认值为 2。 |
| minGram |
integer (int32) |
1 |
最小 n-gram 长度。 默认值为 1。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenFilterV2
生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n-gram 长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenizer
将输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n-gram 长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| tokenChars |
要保留在令牌中的字符类。 |
OutputFieldMappingEntry
技能的输出字段映射。
| 名称 | 类型 | 说明 |
|---|---|---|
| name |
string |
技能定义的输出的名称。 |
| targetName |
string |
输出的目标名称。 它是可选的,默认为 name。 |
PathHierarchyTokenizerV2
用于类似路径的层次结构的分词器。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| delimiter |
string (char) |
/ |
要使用的分隔符。 默认值为“/”。 |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
最大令牌长度。 默认值和最大值为 300。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| replacement |
string (char) |
/ |
如果设置,则替换分隔符的值。 默认值为“/”。 |
| reverse |
boolean |
False |
指示是否以相反顺序生成令牌的值。 默认值为 false。 |
| skip |
integer (int32) |
0 |
要跳过的初始令牌数。 默认为 0。 |
PatternAnalyzer
通过正则表达式模式灵活地将文本分隔为术语。 此分析器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
| flags |
正则表达式标志。 |
||
| lowercase |
boolean |
True |
指示术语是否应小写的值。 默认值为 true。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。 |
| stopwords |
string[] |
停用词列表。 |
PatternCaptureTokenFilter
使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| patterns |
string[] |
要与每个标记匹配的模式列表。 |
|
| preserveOriginal |
boolean |
True |
一个值,指示是否返回原始标记,即使其中一个模式匹配。 默认值为 true。 |
PatternReplaceCharFilter
替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此字符过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定字符过滤器类型的 URI 片段。 |
| name |
string |
字符过滤器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| pattern |
string |
正则表达式模式。 |
| replacement |
string |
替换文本。 |
PatternReplaceTokenFilter
替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| pattern |
string |
正则表达式模式。 |
| replacement |
string |
替换文本。 |
PatternTokenizer
使用正则表达式模式匹配来构造不同标记的标记器。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| flags |
正则表达式标志。 |
||
| group |
integer (int32) |
-1 |
正则表达式模式中匹配组的从零开始的序号,要提取到标记中。 如果要使用整个模式将输入拆分为标记,则使用 -1,而不考虑匹配的组。 默认值为 -1。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。 |
PhoneticEncoder
标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。
| 值 | 说明 |
|---|---|
| metaphone |
将令牌编码为 Metaphone 值。 |
| doubleMetaphone |
将标记编码为双元音值。 |
| soundex |
将标记编码为 Soundex 值。 |
| refinedSoundex |
将标记编码为精炼的 Soundex 值。 |
| caverphone1 |
将标记编码为 Caverphone 1.0 值。 |
| caverphone2 |
将标记编码为 Caverphone 2.0 值。 |
| cologne |
将标记编码为科隆语音值。 |
| nysiis |
将代币编码为 NYSIIS 值。 |
| koelnerPhonetik |
使用 Kölner Phonetik 算法对令牌进行编码。 |
| haasePhonetik |
使用 Kölner Phonetik 算法的 Haase 细化对标记进行编码。 |
| beiderMorse |
将令牌编码为 Beider-Morse 值。 |
PhoneticTokenFilter
为语音匹配创建标记。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| encoder | metaphone |
要使用的语音编码器。 默认值为“metaphone”。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| replace |
boolean |
True |
指示编码令牌是否应替换原始令牌的值。 如果为 false,则将编码标记添加为同义词。 默认值为 true。 |
PrioritizedFields
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| prioritizedContentFields |
定义要用于语义排名、标题、突出显示和答案的内容字段。 为获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。 |
|
| prioritizedKeywordsFields |
定义要用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。 |
|
| titleField |
定义要用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将其留空。 |
RankingOrder
表示用于文档排序顺序的分数。
| 值 | 说明 |
|---|---|
| BoostedRerankerScore |
将排序顺序设置为 BoostedRerankerScore |
| RerankerScore |
将排序顺序设置为 ReRankerScore |
RegexFlags
定义可以组合的标志,以控制正则表达式在模式分析器和模式分词器中的使用方式。
| 值 | 说明 |
|---|---|
| CANON_EQ |
启用规范等效性。 |
| CASE_INSENSITIVE |
启用不区分大小写的匹配。 |
| COMMENTS |
允许模式中的空格和注释。 |
| DOTALL |
启用点模式。 |
| LITERAL |
启用模式的文字解析。 |
| MULTILINE |
启用多行模式。 |
| UNICODE_CASE |
启用 Unicode 感知大小写折叠。 |
| UNIX_LINES |
启用 Unix 线路模式。 |
RescoringOptions
包含重新评分的选项。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| defaultOversampling |
number (double) |
默认过采样因子。 过采样检索更多的潜在文档集,以抵消由于量化而造成的分辨率损失。 这增加了将在全精度向量上重新评分的结果集。 最小值为 1,表示没有过采样 (1x)。 只有当 'enableRescoring' 为 true 时,才能设置此参数。 较高的值会以延迟为代价提高召回率。 |
|
| enableRescoring |
boolean |
True |
如果设置为 true,则在对压缩向量进行初始搜索后,将使用全精度向量重新计算相似性分数。 这将以延迟为代价提高召回率。 |
| rescoreStorageMethod | preserveOriginals |
控制原始矢量的存储方法。 此设置是不可变的。 |
ScalarQuantizationParameters
包含特定于标量量化的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| quantizedDataType |
压缩向量值的量化数据类型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| kind |
string:
scalar |
配置为与矢量搜索一起使用的压缩方法类型的名称。 |
| name |
string |
要与此特定配置关联的名称。 |
| rescoringOptions |
包含重新评分的选项。 |
|
| scalarQuantizationParameters |
包含特定于标量量化的参数。 |
|
| truncationDimension |
integer (int32) |
要截断向量的维数。 截断向量可以减小向量的大小和搜索期间需要传输的数据量。 这可以节省存储成本并提高搜索性能,但代价是召回率。 它只能用于使用套娃表示学习 (MRL) 训练的嵌入,例如 OpenAI text-embedding-3-large (small)。 默认值为 null,这意味着没有截断。 |
ScoringFunctionAggregation
定义用于组合评分配置文件中所有评分函数的结果的聚合函数。
| 值 | 说明 |
|---|---|
| sum |
通过所有评分函数结果的总和来提升分数。 |
| average |
通过所有评分函数结果的平均值来提升分数。 |
| minimum |
提高所有评分函数结果的最小值。 |
| maximum |
将分数提高到所有评分函数结果的最大值。 |
| firstMatching |
使用评分配置文件中的第一个适用评分函数提高分数。 |
ScoringFunctionInterpolation
定义用于在一系列文档中插值分数提升的函数。
| 值 | 说明 |
|---|---|
| linear |
以线性递减的量提高分数。 这是评分函数的默认插值。 |
| constant |
通过恒定系数提高分数。 |
| quadratic |
将分数提高二次方递减的量。 分数越高,提升会缓慢下降,随着分数的下降,提升会越快。 标签评分函数不允许使用此插值选项。 |
| logarithmic |
将分数提高对数递减的量。 分数越高,提升会迅速减少,而随着分数的降低,提升会越慢。 标签评分函数不允许使用此插值选项。 |
ScoringProfile
定义影响搜索查询评分的搜索索引的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| functionAggregation |
指示如何组合各个评分函数的结果的值。 默认为“Sum”。 如果没有评分函数,则忽略。 |
|
| functions | ScoringFunction[]: |
影响文档评分的函数集合。 |
| name |
string |
评分配置文件的名称。 |
| text |
根据某些索引字段中的文本匹配提高评分的参数。 |
SearchField
表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。
| 名称 | 类型 | 说明 |
|---|---|---|
| analyzer |
要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 一旦选择了分析器,就无法针对该字段进行更改。 对于复杂字段,必须为 null。 |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
矢量场的维数。 |
| facetable |
boolean |
指示是否启用在分面查询中引用字段的值。 通常在按类别包含命中次数的搜索结果展示中使用(例如,搜索数码相机并按品牌、像素、价格等查看命中)。 对于复杂字段,此属性必须为 null。 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 类型的字段不能是可分面的。 对于所有其他简单字段,默认值为 true。 |
| fields |
如果子字段是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType) 的字段,则为子字段列表。 对于简单字段,必须为 null 或空。 |
|
| filterable |
boolean |
指示是否启用在$filter查询中引用该字段的值。 filterable 与 searchable 在字符串的处理方式上有所不同。 可筛选的 Edm.String 或 Collection(Edm.String) 类型的字段不会进行断词处理,因此比较仅用于完全匹配。 例如,如果将这样的字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 会找到匹配项。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。 |
| indexAnalyzer |
在为字段编制索引时使用的分析器的名称。 此选项只能用于可搜索字段。 它必须与 searchAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用 analyzer 属性。 一旦选择了分析器,就无法针对该字段进行更改。 对于复杂字段,必须为 null。 |
|
| key |
boolean |
指示该字段是否唯一标识索引中的文档的值。 必须选择每个索引中只有一个顶级字段作为键字段,并且该字段必须是 Edm.String 类型。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,对于复杂字段,默认值为 null。 |
| name |
string |
字段的名称,在索引或父字段的字段集合中必须是唯一的。 |
| normalizer |
要用于字段的规范化器的名称。 此选项只能用于启用了可过滤、可排序或可分面的字段。 选择归一化器后,无法为字段更改它。 对于复杂字段,必须为 null。 |
|
| retrievable |
boolean |
指示是否可以在搜索结果中返回该字段的值。 如果要将字段(例如边距)用作筛选、排序或评分机制,但不希望该字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,对于向量字段为 false,对于复杂字段,默认值为 null。 |
| searchAnalyzer |
在搜索字段时使用的分析器的名称。 此选项只能用于可搜索字段。 它必须与 indexAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用 analyzer 属性。 可以在现有字段上更新此分析器。 对于复杂字段,必须为 null。 |
|
| searchable |
boolean |
指示字段是否可全文搜索的值。 这意味着它将在索引过程中进行诸如断字等分析。 如果将可搜索字段设置为“sunny day”等值,则在内部它将拆分为单独的标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可以搜索 Edm.String 或 Collection(Edm.String) 类型的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段会占用索引中的额外空间,以容纳用于全文搜索的字段值的其他标记化版本。 如果要节省索引中的空间,并且不需要在搜索中包含字段,请将 searchable 设置为 false。 |
| sortable |
boolean |
指示是否启用在$orderby表达式中引用字段的值。 默认情况下,搜索引擎按分数对结果进行排序,但在许多体验中,用户会希望按文档中的字段进行排序。 仅当简单字段是单值的(它在父文档的作用域中具有单个值)时,它才能进行排序。 简单集合字段不能排序,因为它们是多值的。 复杂集合的简单子字段也是多值的,因此无法排序。 无论是直接父字段还是上级字段,都是如此,这就是复杂的集合。 复杂字段不能进行排序,并且此类字段的 sortable 属性必须为 null。 对于单值简单字段,sortable 的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。 |
| stored |
boolean |
一个不可变值,指示该字段是否将单独保留在磁盘上以在搜索结果中返回。 如果您不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在索引创建期间设置,并且只能针对向量字段进行设置。 不能更改现有字段的此属性,也不能将新字段设置为 false。 如果此属性设置为 false,则属性“retrievable”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,对于复杂字段必须为 null。 禁用此属性将减少索引存储要求。 对于矢量场,默认值为 true。 |
| synonymMaps |
string[] |
要与此字段关联的同义词映射的名称列表。 此选项只能用于可搜索字段。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。 |
| type |
字段的数据类型。 |
|
| vectorEncoding |
用于解释字段内容的编码格式。 |
|
| vectorSearchProfile |
string |
向量搜索配置文件的名称,用于指定搜索向量字段时要使用的算法和矢量化器。 |
SearchFieldDataType
定义搜索索引中字段的数据类型。
| 值 | 说明 |
|---|---|
| Edm.String |
指示字段包含字符串。 |
| Edm.Int32 |
指示字段包含 32 位有符号整数。 |
| Edm.Int64 |
指示字段包含 64 位有符号整数。 |
| Edm.Double |
指示字段包含 IEEE 双精度浮点数。 |
| Edm.Boolean |
指示字段包含布尔值(true 或 false)。 |
| Edm.DateTimeOffset |
指示字段包含日期/时间值,包括时区信息。 |
| Edm.GeographyPoint |
指示字段包含经度和纬度方面的地理位置。 |
| Edm.ComplexType |
指示字段包含一个或多个复杂对象,而这些对象又具有其他类型的子字段。 |
| Edm.Single |
指示字段包含单精度浮点数。 这仅在与 Collection(Edm.Single) 一起使用时有效。 |
| Edm.Half |
指示字段包含半精度浮点数。 这仅在与 Collection(Edm.Half) 一起使用时有效。 |
| Edm.Int16 |
指示字段包含 16 位有符号整数。 这仅在与 Collection(Edm.Int16) 一起使用时有效。 |
| Edm.SByte |
指示字段包含 8 位有符号整数。 这仅在与 Collection(Edm.SByte) 一起使用时有效。 |
| Edm.Byte |
指示字段包含 8 位无符号整数。 这仅在与 Collection(Edm.Byte) 一起使用时有效。 |
SearchIndex
表示搜索索引定义,它描述索引的字段和搜索行为。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.etag |
string |
索引的 ETag。 |
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
| charFilters | CharFilter[]: |
索引的字符筛选器。 |
| corsOptions |
用于控制索引的跨域资源共享 (CORS) 的选项。 |
|
| defaultScoringProfile |
string |
如果查询中未指定任何评分配置文件,则要使用的评分配置文件的名称。 如果未设置此属性,并且在查询中未指定评分配置文件,则将使用默认评分 (tf-idf)。 |
| description |
string |
索引的描述。 |
| encryptionKey |
在 Azure Key Vault 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;您的数据将不受影响。 使用客户管理的密钥进行加密不适用于免费搜索服务,仅适用于 2019 年 1 月 1 日或之后创建的付费服务。 |
|
| fields |
索引的字段。 |
|
| name |
string |
索引的名称。 |
| normalizers | LexicalNormalizer[]: |
索引的规范化器。 |
| scoringProfiles |
索引的评分配置文件。 |
|
| semantic |
定义影响语义功能的搜索索引的参数。 |
|
| similarity | Similarity: |
对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能在现有索引上进行修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
| suggesters |
索引的建议。 |
|
| tokenFilters |
TokenFilter[]:
|
索引的令牌筛选器。 |
| tokenizers | LexicalTokenizer[]: |
索引的分词器。 |
| vectorSearch |
包含与矢量搜索相关的配置选项。 |
SearchIndexerDataNoneIdentity
清除数据源的标识属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身份类型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用的数据源的标识。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身份类型的 URI 片段。 |
| userAssignedIdentity |
string |
用户分配的托管标识的完全限定的 Azure 资源 ID,通常采用“/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”的形式,应分配给搜索服务。 |
SearchResourceEncryptionKey
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。
| 名称 | 类型 | 说明 |
|---|---|---|
| accessCredentials |
用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。 |
|
| keyVaultKeyName |
string |
用于加密静态数据的 Azure Key Vault 密钥的名称。 |
| keyVaultKeyVersion |
string |
用于加密静态数据的 Azure Key Vault 密钥版本。 |
| keyVaultUri |
string |
Azure 密钥保管库的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 一个示例 URI 可能是 |
SemanticConfiguration
定义要在语义功能上下文中使用的特定配置。
| 名称 | 类型 | 说明 |
|---|---|---|
| name |
string |
语义配置的名称。 |
| prioritizedFields |
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 需要设置三个子属性(titleField、prioritizedKeywordsFields 和 prioritizedContentFields)中的至少一个。 |
|
| rankingOrder |
指定用于搜索结果排序顺序的分数类型。 |
SemanticField
用作语义配置一部分的字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| fieldName |
string |
SemanticSettings
定义影响语义功能的搜索索引的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| configurations |
索引的语义配置。 |
|
| defaultConfiguration |
string |
允许您在索引中设置默认语义配置的名称,以便每次都将其作为查询参数传递是可选的。 |
ShingleTokenFilter
将令牌组合创建为单个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| filterToken |
string |
_ |
要为没有标记的每个位置插入的字符串。 默认值为下划线(“_”)。 |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
最大木瓦尺寸。 默认值和最小值为 2。 |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
最小木瓦尺寸。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| outputUnigrams |
boolean |
True |
指示输出流是否包含输入标记(单形)和带状疱疹的值。 默认值为 true。 |
| outputUnigramsIfNoShingles |
boolean |
False |
一个值,指示是否在没有可用带状疱疹时输出 unigram。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。 |
| tokenSeparator |
string |
连接相邻标记以形成木瓦时使用的字符串。 默认值为单个空格 (“ ”)。 |
SnowballTokenFilter
使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
| language |
要使用的语言。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
SnowballTokenFilterLanguage
用于 Snowball 令牌筛选器的语言。
| 值 | 说明 |
|---|---|
| armenian |
为亚美尼亚语选择 Lucene Snowball 词干标记器。 |
| basque |
选择巴斯克语的 Lucene Snowball 词干标记器。 |
| catalan |
选择加泰罗尼亚语的 Lucene Snowball 词干标记器。 |
| danish |
为丹麦语选择 Lucene Snowball 词干标记器。 |
| dutch |
选择 Dutch 的 Lucene Snowball 词干标记器。 |
| english |
为英语选择 Lucene Snowball 词干标记器。 |
| finnish |
为芬兰语选择 Lucene Snowball 词干标记器。 |
| french |
为法语选择 Lucene Snowball 词干标记器。 |
| german |
选择德语的 Lucene Snowball 词干标记器。 |
| german2 |
选择使用德语变体算法的 Lucene Snowball 词干提取器。 |
| hungarian |
为匈牙利语选择 Lucene Snowball 词干标记器。 |
| italian |
为意大利语选择 Lucene Snowball 词干标记器。 |
| kp |
选择使用 dutch 的 Lucene Snowball 词干提取器,该分词器使用 Kraaij-Pohlmann 词干提取算法。 |
| lovins |
为使用 Lovins 词干提取算法的英语选择 Lucene Snowball 词干提取器。 |
| norwegian |
为挪威语选择 Lucene Snowball 词干标记器。 |
| porter |
选择使用 Porter 词干提取算法的英语的 Lucene Snowball 词干标记器。 |
| portuguese |
为葡萄牙语选择 Lucene Snowball 词干标记器。 |
| romanian |
为罗马尼亚语选择 Lucene Snowball 词干标记器。 |
| russian |
为俄语选择 Lucene Snowball 词干标记器。 |
| spanish |
为西班牙语选择 Lucene Snowball 词干标记器。 |
| swedish |
为瑞典语选择 Lucene Snowball 词干标记器。 |
| turkish |
为土耳其语选择 Lucene Snowball 词干标记器。 |
StemmerOverrideTokenFilter
提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。 任何词干词干术语都将被标记为关键字,这样它们就不会被链下游的词干分析器所用词干词干处理。 必须放置在任何词干过滤器之前。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| rules |
string[] |
以下格式的词干删除规则列表:“word => stem”,例如:“ran => run”。 |
StemmerTokenFilter
特定于语言的词干筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
| language |
要使用的语言。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
StemmerTokenFilterLanguage
用于词干分析器标记筛选器的语言。
| 值 | 说明 |
|---|---|
| arabic |
为阿拉伯语选择 Lucene 词干标记器。 |
| armenian |
选择亚美尼亚语的 Lucene 词干标记器。 |
| basque |
选择巴斯克语的 Lucene 词干标记器。 |
| brazilian |
为葡萄牙语(巴西)选择 Lucene 词干标记器。 |
| bulgarian |
选择保加利亚语的 Lucene 词干标记器。 |
| catalan |
选择加泰罗尼亚语的 Lucene 词干标记器。 |
| czech |
选择捷克语的 Lucene 词干提取器。 |
| danish |
为丹麦语选择 Lucene 词干标记器。 |
| dutch |
选择荷兰语的 Lucene 词干标记器。 |
| dutchKp |
为使用 Kraaij-Pohlmann 词干提取算法的 Dutch 选择 Lucene 词干提取器。 |
| english |
选择英语的 Lucene 词干标记器。 |
| lightEnglish |
为执行轻词干提取的英语选择 Lucene 词干标记器。 |
| minimalEnglish |
为英语选择执行最小词干提取的 Lucene 词干提取器。 |
| possessiveEnglish |
选择英语的 Lucene 词干标记器,该标记器从单词中删除尾随所有格。 |
| porter2 |
选择使用 Porter2 词干提取算法的英语的 Lucene 词干提取器。 |
| lovins |
选择使用 Lovins 词干提取算法的英语的 Lucene 词干提取器。 |
| finnish |
为芬兰语选择 Lucene 词干标记器。 |
| lightFinnish |
为芬兰语选择执行轻词干提取的 Lucene 词干标记器。 |
| french |
选择法语的 Lucene 词干标记器。 |
| lightFrench |
为法语选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalFrench |
为法语选择执行最小词干提取的 Lucene 词干标记器。 |
| galician |
选择 Galician 的 Lucene 词干标记器。 |
| minimalGalician |
为加利西亚语选择执行最小词干提取的 Lucene 词干标记器。 |
| german |
选择德语的 Lucene 词干标记器。 |
| german2 |
选择使用德语变体算法的 Lucene 词干标记器。 |
| lightGerman |
为执行轻词干提取的德语选择 Lucene 词干标记器。 |
| minimalGerman |
为德语选择执行最小词干提取的 Lucene 词干标记器。 |
| greek |
选择希腊语的 Lucene 词干标记器。 |
| hindi |
选择印地语的 Lucene 词干提取器。 |
| hungarian |
选择匈牙利语的 Lucene 词干标记器。 |
| lightHungarian |
为匈牙利语选择执行轻词干提取的 Lucene 词干标记器。 |
| indonesian |
选择印度尼西亚语的 Lucene 词干提取器。 |
| irish |
选择爱尔兰语的 Lucene 词干标记器。 |
| italian |
选择意大利语的 Lucene 词干标记器。 |
| lightItalian |
为意大利语选择执行轻词干提取的 Lucene 词干标记器。 |
| sorani |
选择 Sorani 的 Lucene 词干提取器。 |
| latvian |
选择拉脱维亚语的 Lucene 词干标记器。 |
| norwegian |
选择挪威语 (Bokmål) 的 Lucene 词干标记器。 |
| lightNorwegian |
为挪威语 (Bokmål) 选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalNorwegian |
为挪威语 (Bokmål) 选择执行最小词干提取的 Lucene 词干标记器。 |
| lightNynorsk |
为挪威语(尼诺斯克)选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalNynorsk |
为挪威语(尼诺斯克)选择执行最小词干提取的 Lucene 词干提取器。 |
| portuguese |
选择葡萄牙语的 Lucene 词干标记器。 |
| lightPortuguese |
为葡萄牙语选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalPortuguese |
为葡萄牙语选择执行最小词干提取的 Lucene 词干标记器。 |
| portugueseRslp |
选择使用 RSLP 词干提取算法的葡萄牙语的 Lucene 词干提取器。 |
| romanian |
为罗马尼亚语选择 Lucene 词干标记器。 |
| russian |
为俄语选择 Lucene 词干标记器。 |
| lightRussian |
为俄语选择执行轻词干提取的 Lucene 词干标记器。 |
| spanish |
选择西班牙语的 Lucene 词干标记器。 |
| lightSpanish |
为西班牙语选择执行轻词干提取的 Lucene 词干标记器。 |
| swedish |
选择瑞典语的 Lucene 词干标记器。 |
| lightSwedish |
为瑞典语选择执行轻词干提取的 Lucene 词干标记器。 |
| turkish |
为土耳其语选择 Lucene 词干标记器。 |
StopAnalyzer
在非字母处划分文本;应用小写和停用词标记筛选器。 此分析器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| stopwords |
string[] |
停用词列表。 |
StopwordsList
标识特定于语言的停用词的预定义列表。
| 值 | 说明 |
|---|---|
| arabic |
选择阿拉伯语的停用词列表。 |
| armenian |
选择亚美尼亚语的停用词列表。 |
| basque |
选择巴斯克语的停用词列表。 |
| brazilian |
选择葡萄牙语(巴西)的停用词列表。 |
| bulgarian |
选择保加利亚语的停用词列表。 |
| catalan |
选择加泰罗尼亚语的停用词列表。 |
| czech |
选择捷克语的停用词列表。 |
| danish |
选择丹麦语的停用词列表。 |
| dutch |
选择荷兰语的停用词列表。 |
| english |
选择英语的停用词列表。 |
| finnish |
选择芬兰语的停用词列表。 |
| french |
选择法语的停用词列表。 |
| galician |
选择加利西亚语的停用词列表。 |
| german |
选择德语的停用词列表。 |
| greek |
选择希腊语的停用词列表。 |
| hindi |
选择印地语的停用词列表。 |
| hungarian |
选择匈牙利语的停用词列表。 |
| indonesian |
选择印度尼西亚语的停用词列表。 |
| irish |
选择爱尔兰语的停用词列表。 |
| italian |
选择意大利语的停用词列表。 |
| latvian |
选择拉脱维亚语的停用词列表。 |
| norwegian |
选择挪威语的停用词列表。 |
| persian |
选择波斯语的停用词列表。 |
| portuguese |
选择葡萄牙语的停用词列表。 |
| romanian |
选择罗马尼亚语的停用词列表。 |
| russian |
选择俄语的停用词列表。 |
| sorani |
选择 Sorani 的停用词列表。 |
| spanish |
选择西班牙语的停用词列表。 |
| swedish |
选择瑞典语的停用词列表。 |
| thai |
选择泰语的停用词列表。 |
| turkish |
选择土耳其语的停用词列表。 |
StopwordsTokenFilter
从标记流中删除停用词。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| ignoreCase |
boolean |
False |
指示是否忽略大小写的值。 如果为 true,则所有单词首先转换为小写。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| removeTrailing |
boolean |
True |
一个值,指示如果最后一个搜索词是停用词,则是否忽略该搜索词。 默认值为 true。 |
| stopwords |
string[] |
停用词列表。 不能同时设置此属性和停用词列表属性。 |
|
| stopwordsList | english |
要使用的停用词的预定义列表。 不能同时设置此属性和停用词属性。 默认为英语。 |
Suggester
定义建议 API 应如何应用于索引中的一组字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| name |
string |
建议者的名称。 |
| searchMode |
指示建议器功能的值。 |
|
| sourceFields |
string[] |
建议器适用的字段名称列表。 每个字段都必须是可搜索的。 |
SuggesterSearchMode
指示建议器功能的值。
| 值 | 说明 |
|---|---|
| analyzingInfixMatching |
匹配字段中连续的整项和前缀。 例如,对于字段“The fastest brown fox”,查询“fast”和“fastest brow”将匹配。 |
SynonymTokenFilter
匹配令牌流中的单个或多个单词同义词。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| expand |
boolean |
True |
一个值,指示同义词列表中的所有单词(如果未使用 => 表示法)是否相互映射。 如果为 true,则同义词列表中的所有单词(如果未使用 => 表示法)将相互映射。 以下列表:不可思议、不可思议、神话般地、惊人相当于:不可思议、不可思议、不可思议、神话般地、令人惊叹> =不可思议、难以置信、神话般地、令人惊叹。 如果为 false,则以下列表:incredible、unbelievable、fabulous、amazing 将等效于:incredible、unbelievable、fabulous、amazing => incredible。 默认值为 true。 |
| ignoreCase |
boolean |
False |
指示是否对输入进行大小写折叠以进行匹配的值。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| synonyms |
string[] |
以下两种格式之一的同义词列表: 1. 不可思议、难以置信、神话般的 => 惊人 - => 符号左侧的所有术语都将替换为其右侧的所有术语;2. 不可思议、难以置信、神话般的、惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。 |
TagScoringFunction
定义一个函数,用于提升字符串值与给定标记列表匹配的文档的分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,指示如何在文档分数之间插值提升;默认为“线性”。 |
|
| tag |
标记评分函数的参数值。 |
|
| type |
string:
tag |
指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。 |
TagScoringParameters
为标记评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| tagsParameter |
string |
在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。 |
TextWeights
定义索引字段的权重,这些匹配项应提高搜索查询中的评分。
| 名称 | 类型 | 说明 |
|---|---|---|
| weights |
object |
用于提高文档评分的每个字段权重的字典。 键是字段名称,值是每个字段的权重。 |
TokenCharacterKind
表示令牌筛选器可以作的字符类。
| 值 | 说明 |
|---|---|
| letter |
将字母保存在标记中。 |
| digit |
在标记中保留数字。 |
| whitespace |
在标记中保留空格。 |
| punctuation |
在标记中保留标点符号。 |
| symbol |
将符号保留在标记中。 |
TokenFilterName
定义搜索引擎支持的所有令牌过滤器的名称。
TruncateTokenFilter
将项截断为特定长度。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| length |
integer (int32) maximum: 300 |
300 |
将截断的术语长度。 默认值和最大值为 300。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UaxUrlEmailTokenizer
将 url 和电子邮件标记为一个标记。 此分词器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分词器类型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UniqueTokenFilter
过滤掉与前一个标记具有相同文本的标记。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| onlyOnSamePosition |
boolean |
False |
指示是否仅删除同一位置的重复项的值。 默认值为 false。 |
VectorEncodingFormat
用于解释向量字段内容的编码格式。
| 值 | 说明 |
|---|---|
| packedBit |
编码格式表示打包到更宽数据类型的位。 |
VectorSearch
包含与矢量搜索相关的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
包含特定于索引或查询期间使用的算法的配置选项。 |
| compressions | VectorSearchCompressionConfiguration[]: |
包含特定于索引或查询期间使用的压缩方法的配置选项。 |
| profiles |
定义要与矢量搜索一起使用的配置组合。 |
|
| vectorizers | VectorSearchVectorizer[]: |
包含有关如何矢量化文本矢量查询的配置选项。 |
VectorSearchAlgorithmKind
用于索引和查询的算法。
| 值 | 说明 |
|---|---|
| hnsw |
HNSW(Hierarchical Navigable Small World),一种近似最近邻算法。 |
| exhaustiveKnn |
详尽的 KNN 算法,将执行暴力搜索。 |
VectorSearchAlgorithmMetric
用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。
| 值 | 说明 |
|---|---|
| cosine |
测量向量之间的角度以量化它们的相似性,而不考虑大小。 角度越小,相似度越近。 |
| euclidean |
计算多维空间中向量之间的直线距离。 距离越小,相似度越近。 |
| dotProduct |
计算元素乘积的总和,以衡量对齐和大小相似性。 越大、越积极,相似度越接近。 |
| hamming |
仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越接近。 |
VectorSearchCompressionKind
用于索引和查询的压缩方法。
| 值 | 说明 |
|---|---|
| scalarQuantization |
标量量化,一种压缩方法。 在标量量化中,通过使用一组减少的量化值离散化和表示向量的每个分量,将原始向量值压缩为更窄的类型,从而减小整体数据大小。 |
| binaryQuantization |
二进制量化,一种压缩方法。 在二进制量化中,通过使用二进制值离散化和表示向量的每个分量,将原始向量值压缩为较窄的二进制类型,从而减小整体数据大小。 |
VectorSearchCompressionRescoreStorageMethod
用于重新评分和内部索引作的原始全精度向量的存储方法。
| 值 | 说明 |
|---|---|
| preserveOriginals |
此选项保留原始全精度向量。 选择此选项可获得最大的灵活性和最高质量的压缩搜索结果。 这会消耗更多存储空间,但允许重新评分和过采样。 |
| discardOriginals |
此选项丢弃原始全精度向量。 选择此选项可最大限度地节省存储空间。 由于此选项不允许重新评分和过采样,因此通常会导致质量轻微到中度下降。 |
VectorSearchCompressionTargetDataType
压缩向量值的量化数据类型。
| 值 | 说明 |
|---|---|
| int8 |
VectorSearchProfile
定义要与矢量搜索一起使用的配置组合。
| 名称 | 类型 | 说明 |
|---|---|---|
| algorithm |
string |
指定算法和可选参数的矢量搜索算法配置的名称。 |
| compression |
string |
指定压缩方法和可选参数的压缩方法配置的名称。 |
| name |
string |
要与此特定向量搜索配置文件关联的名称。 |
| vectorizer |
string |
配置为用于矢量搜索的矢量化的名称。 |
VectorSearchVectorizerKind
查询时要使用的矢量化方法。
| 值 | 说明 |
|---|---|
| azureOpenAI |
在查询时使用 Azure OpenAI 资源生成嵌入。 |
| customWebApi |
在查询时使用自定义 Web 终结点生成嵌入。 |
WebApiParameters
指定用于连接到用户定义矢量化器的属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 如果提供了 authResourceId 但未指定,则使用系统分配的托管标识。 在更新索引器时,如果未指定标识,则该值保持不变。 如果设置为“none”,则清除此属性的值。 |
| authResourceId |
string |
适用于连接到 Azure 函数中的外部代码或提供转换的其他应用程序中的自定义终结点。 此值应是向 Azure Active Directory 注册时为函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,并将此值用作创建访问令牌范围的资源 ID。 |
| httpHeaders |
object |
发出 HTTP 请求所需的标头。 |
| httpMethod |
string |
HTTP 请求的方法。 |
| timeout |
string (duration) |
请求的所需超时。 默认值为 30 秒。 |
| uri |
string (uri) |
提供矢量化器的 Web API 的 URI。 |
WebApiVectorizer
指定用户定义的矢量化器,用于生成查询字符串的矢量嵌入。 外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| customWebApiParameters |
指定用户定义矢量化器的属性。 |
|
| kind |
string:
custom |
配置为用于向量搜索的矢量化方法的名称。 |
| name |
string |
要与此特定矢量化方法关联的名称。 |
WordDelimiterTokenFilter
将单词拆分为子词,并对子词组执行可选转换。 此令牌过滤器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
| catenateAll |
boolean |
False |
指示是否将所有子字部分连接的值。 例如,如果将其设置为 true,则“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。 |
| catenateNumbers |
boolean |
False |
指示是否将连接编号部分的最大运行量的值。 例如,如果将其设置为 true,则“1-2”变为“12”。 默认值为 false。 |
| catenateWords |
boolean |
False |
指示是否将对单词部分的最大运行数进行连接的值。 例如,如果将其设置为 true,则“Azure-Search”将变为“AzureSearch”。 默认值为 false。 |
| generateNumberParts |
boolean |
True |
指示是否生成数字子词的值。 默认值为 true。 |
| generateWordParts |
boolean |
True |
指示是否生成部分词的值。 如果设置,则导致生成部分单词;例如,“AzureSearch”变为“Azure”“Search”。 默认值为 true。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| preserveOriginal |
boolean |
False |
指示是否保留原始单词并将其添加到子单词列表中的值。 默认值为 false。 |
| protectedWords |
string[] |
要防止分隔的令牌列表。 |
|
| splitOnCaseChange |
boolean |
True |
指示是否在 caseChange 上拆分单词的值。 例如,如果将其设置为 true,则“AzureSearch”将变为“Azure”“Search”。 默认值为 true。 |
| splitOnNumerics |
boolean |
True |
指示是否对数字进行拆分的值。 例如,如果将其设置为 true,则“Azure1Search”将变为“Azure”“1”Search“。 默认值为 true。 |
| stemEnglishPossessive |
boolean |
True |
指示是否删除每个子词的尾随“'s”的值。 默认值为 true。 |