你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Indexes - Create

创建新的搜索索引。

POST {endpoint}/indexes?api-version=2025-09-01

URI 参数

名称 必需 类型 说明
endpoint
path True

string

搜索服务的终结点 URL。

api-version
query True

string

客户端 API 版本。

请求头

名称 必需 类型 说明
x-ms-client-request-id

string (uuid)

随请求一起发送的跟踪 ID,以帮助调试。

请求正文

名称 必需 类型 说明
fields True

SearchField[]

索引的字段。

name True

string

索引的名称。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享 (CORS) 的选项。

defaultScoringProfile

string

如果查询中未指定任何评分配置文件,则要使用的评分配置文件的名称。 如果未设置此属性,并且在查询中未指定评分配置文件,则将使用默认评分 (tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

在 Azure Key Vault 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;您的数据将不受影响。 使用客户管理的密钥进行加密不适用于免费搜索服务,仅适用于 2019 年 1 月 1 日或之后创建的付费服务。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的规范化器。

scoringProfiles

ScoringProfile[]

索引的评分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能在现有索引上进行修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议。

tokenFilters TokenFilter[]:

索引的令牌筛选器。

tokenizers LexicalTokenizer[]:

索引的分词器。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

响应

名称 类型 说明
201 Created

SearchIndex

Other Status Codes

ErrorResponse

错误响应。

示例

SearchServiceCreateIndex

示例请求

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

示例响应

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

定义

名称 说明
AsciiFoldingTokenFilter

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 此令牌过滤器是使用 Apache Lucene 实现的。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。

AzureOpenAIEmbeddingSkill

允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

AzureOpenAIParameters

指定用于连接到 Azure OpenAI 资源的参数。

AzureOpenAIVectorizer

指定用于矢量化查询字符串的 Azure OpenAI 资源。

BinaryQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

BM25Similarity

基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法,包括长度归一化(由“b”参数控制)以及项频率饱和度(由“k1”参数控制)。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

CjkBigramTokenFilter

形成从标准分词器生成的 CJK 术语的二元组。 此令牌过滤器是使用 Apache Lucene 实现的。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。

ClassicTokenizer

基于语法的分词器,适用于处理大多数欧洲语言文档。 此分词器是使用 Apache Lucene 实现的。

CommonGramTokenFilter

在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 此令牌过滤器是使用 Apache Lucene 实现的。

CorsOptions

定义用于控制索引的跨域资源共享 (CORS) 的选项。

CustomAnalyzer

允许您控制将文本转换为可索引/可搜索标记的过程。 它是一个用户定义的配置,由单个预定义分词器和一个或多个过滤器组成。 分词器负责将文本分解为标记,过滤器负责修改分词器发出的标记。

CustomNormalizer

允许您为可过滤、可排序和可分面字段配置规范化,默认情况下,这些字段以严格匹配的方式运行。 这是一个用户定义的配置,由至少一个或多个过滤器组成,这些过滤器修改存储的令牌。

DictionaryDecompounderTokenFilter

分解许多日耳曼语言中的复合词。 此令牌过滤器是使用 Apache Lucene 实现的。

DistanceScoringFunction

定义一个函数,该函数根据与地理位置的距离提高分数。

DistanceScoringParameters

为距离评分函数提供参数值。

EdgeNGramTokenFilter

从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

EdgeNGramTokenFilterSide

指定应从输入的哪一侧生成 n-gram。

EdgeNGramTokenFilterV2

从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

EdgeNGramTokenizer

将来自边的输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。

ElisionTokenFilter

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 此令牌过滤器是使用 Apache Lucene 实现的。

ErrorAdditionalInfo

资源管理错误附加信息。

ErrorDetail

错误详细信息。

ErrorResponse

错误响应

ExhaustiveKnnParameters

包含特定于穷尽 KNN 算法的参数。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将对整个向量索引执行暴力搜索。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提高分数。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

HnswParameters

包含特定于 HNSW 算法的参数。

HnswVectorSearchAlgorithmConfiguration

包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。

InputFieldMappingEntry

技能的输入字段映射。

KeepTokenFilter

一种令牌筛选器,仅保留指定单词列表中包含文本的令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌过滤器是使用 Apache Lucene 实现的。

KeywordTokenizer

将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。

KeywordTokenizerV2

将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。

LengthTokenFilter

删除太长或太短的单词。 此令牌过滤器是使用 Apache Lucene 实现的。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

LimitTokenFilter

限制索引时的令牌数量。 此令牌过滤器是使用 Apache Lucene 实现的。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。

LuceneStandardTokenizer

按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。

LuceneStandardTokenizerV2

按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提高分数。

MagnitudeScoringParameters

为幅度评分函数提供参数值。

MappingCharFilter

应用使用 mappings 选项定义的映射的字符过滤器。 匹配是贪婪的(在给定点上最长的模式匹配获胜)。 允许替换为空字符串。 此字符过滤器是使用 Apache Lucene 实现的。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词简化为基本形式。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 语言词干提取器支持的语言。

MicrosoftTokenizerLanguage

列出 Microsoft 语言分词器支持的语言。

NGramTokenFilter

生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

NGramTokenFilterV2

生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

NGramTokenizer

将输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。

OutputFieldMappingEntry

技能的输出字段映射。

PathHierarchyTokenizerV2

用于类似路径的层次结构的分词器。 此分词器是使用 Apache Lucene 实现的。

PatternAnalyzer

通过正则表达式模式灵活地将文本分隔为术语。 此分析器是使用 Apache Lucene 实现的。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

PatternReplaceCharFilter

替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此字符过滤器是使用 Apache Lucene 实现的。

PatternReplaceTokenFilter

替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此令牌过滤器是使用 Apache Lucene 实现的。

PatternTokenizer

使用正则表达式模式匹配来构造不同标记的标记器。 此分词器是使用 Apache Lucene 实现的。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。

PhoneticTokenFilter

为语音匹配创建标记。 此令牌过滤器是使用 Apache Lucene 实现的。

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

RankingOrder

表示用于文档排序顺序的分数。

RegexFlags

定义可以组合的标志,以控制正则表达式在模式分析器和模式分词器中的使用方式。

RescoringOptions

包含重新评分的选项。

ScalarQuantizationParameters

包含特定于标量量化的参数。

ScalarQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

ScoringFunctionAggregation

定义用于组合评分配置文件中所有评分函数的结果的聚合函数。

ScoringFunctionInterpolation

定义用于在一系列文档中插值分数提升的函数。

ScoringProfile

定义影响搜索查询评分的搜索索引的参数。

SearchField

表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。

SearchFieldDataType

定义搜索索引中字段的数据类型。

SearchIndex

表示搜索索引定义,它描述索引的字段和搜索行为。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

SemanticConfiguration

定义要在语义功能上下文中使用的特定配置。

SemanticField

用作语义配置一部分的字段。

SemanticSettings

定义影响语义功能的搜索索引的参数。

ShingleTokenFilter

将令牌组合创建为单个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

SnowballTokenFilter

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。 任何词干词干术语都将被标记为关键字,这样它们就不会被链下游的词干分析器所用词干词干处理。 必须放置在任何词干过滤器之前。 此令牌过滤器是使用 Apache Lucene 实现的。

StemmerTokenFilter

特定于语言的词干筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

StopAnalyzer

在非字母处划分文本;应用小写和停用词标记筛选器。 此分析器是使用 Apache Lucene 实现的。

StopwordsList

标识特定于语言的停用词的预定义列表。

StopwordsTokenFilter

从标记流中删除停用词。 此令牌过滤器是使用 Apache Lucene 实现的。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

SuggesterSearchMode

指示建议器功能的值。

SynonymTokenFilter

匹配令牌流中的单个或多个单词同义词。 此令牌过滤器是使用 Apache Lucene 实现的。

TagScoringFunction

定义一个函数,用于提升字符串值与给定标记列表匹配的文档的分数。

TagScoringParameters

为标记评分函数提供参数值。

TextWeights

定义索引字段的权重,这些匹配项应提高搜索查询中的评分。

TokenCharacterKind

表示令牌筛选器可以作的字符类。

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

TruncateTokenFilter

将项截断为特定长度。 此令牌过滤器是使用 Apache Lucene 实现的。

UaxUrlEmailTokenizer

将 url 和电子邮件标记为一个标记。 此分词器是使用 Apache Lucene 实现的。

UniqueTokenFilter

过滤掉与前一个标记具有相同文本的标记。 此令牌过滤器是使用 Apache Lucene 实现的。

VectorEncodingFormat

用于解释向量字段内容的编码格式。

VectorSearch

包含与矢量搜索相关的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。

VectorSearchCompressionKind

用于索引和查询的压缩方法。

VectorSearchCompressionRescoreStorageMethod

用于重新评分和内部索引作的原始全精度向量的存储方法。

VectorSearchCompressionTargetDataType

压缩向量值的量化数据类型。

VectorSearchProfile

定义要与矢量搜索一起使用的配置组合。

VectorSearchVectorizerKind

查询时要使用的矢量化方法。

WebApiParameters

指定用于连接到用户定义矢量化器的属性。

WebApiVectorizer

指定用户定义的矢量化器,用于生成查询字符串的矢量嵌入。 外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。

WordDelimiterTokenFilter

将单词拆分为子词,并对子词组执行可选转换。 此令牌过滤器是使用 Apache Lucene 实现的。

AsciiFoldingTokenFilter

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

指示是否保留原始令牌的值。 默认值为 false。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对存储在 Azure Key Vault 中的加密密钥进行身份验证访问。

名称 类型 说明
applicationId

string

向 Azure Key Vault 授予所需的访问权限的 AAD 应用程序 ID,该权限将在加密静态数据时使用。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。

applicationSecret

string

指定 AAD 应用程序的身份验证密钥。

AzureOpenAIEmbeddingSkill

允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。

名称 类型 说明
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

指定技能类型的 URI 片段。

apiKey

string

指定 Azure OpenAI 资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。

context

string

表示执行作的级别,例如文档根目录或文档内容(例如,/document 或 /document/content)。 默认值为 /document。

deploymentId

string

指定资源上 Azure OpenAI 模型部署的 ID。

description

string

描述技能的描述,描述技能的输入、输出和用法。

dimensions

integer (int32)

生成的输出嵌入应有的维度数。 仅在 text-embedding-3 及更高版本中受支持。

inputs

InputFieldMappingEntry[]

技能的输入可以是源数据集中的列,也可以是上游技能的输出。

modelName

AzureOpenAIModelName

部署在提供的 deploymentId 路径上的嵌入模型的名称。

name

string

在技能集中唯一标识它的技能的名称。 未定义名称的技能将在技能数组中为其从 1 开始的索引的默认名称,前缀为字符“#”。

outputs

OutputFieldMappingEntry[]

技能的输出要么是搜索索引中的字段,要么是可作为其他技能输入使用的值。

resourceUri

string (uri)

Azure OpenAI 资源的资源 URI。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

说明
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

指定用于连接到 Azure OpenAI 资源的参数。

名称 类型 说明
apiKey

string

指定 Azure OpenAI 资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。

deploymentId

string

指定资源上 Azure OpenAI 模型部署的 ID。

modelName

AzureOpenAIModelName

部署在提供的 deploymentId 路径上的嵌入模型的名称。

resourceUri

string (uri)

Azure OpenAI 资源的资源 URI。

AzureOpenAIVectorizer

指定用于矢量化查询字符串的 Azure OpenAI 资源。

名称 类型 说明
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

包含特定于 Azure OpenAI 嵌入矢量化的参数。

kind string:

azureOpenAI

配置为用于向量搜索的矢量化方法的名称。

name

string

要与此特定矢量化方法关联的名称。

BinaryQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

名称 类型 说明
kind string:

binaryQuantization

配置为与矢量搜索一起使用的压缩方法类型的名称。

name

string

要与此特定配置关联的名称。

rescoringOptions

RescoringOptions

包含重新评分的选项。

truncationDimension

integer (int32)

要截断向量的维数。 截断向量可以减小向量的大小和搜索期间需要传输的数据量。 这可以节省存储成本并提高搜索性能,但代价是召回率。 它只能用于使用套娃表示学习 (MRL) 训练的嵌入,例如 OpenAI text-embedding-3-large (small)。 默认值为 null,这意味着没有截断。

BM25Similarity

基于Okapi BM25相似度算法的排名函数。 BM25 是一种类似 TF-IDF 的算法,包括长度归一化(由“b”参数控制)以及项频率饱和度(由“k1”参数控制)。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值 0.0 表示不应用长度规范化,而值 1.0 表示分数按文档长度完全规范化。

k1

number (double)

此属性控制每个匹配术语的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值 0.0 表示分数不会随着术语频率的增加而缩放。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

说明
html_strip

尝试剥离 HTML 构造的字符过滤器。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成从标准分词器生成的 CJK 术语的二元组。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的脚本。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

False

一个值,指示是同时输出单元组和双元组(如果为 true),还是仅输出双元组(如果为 false)。 默认值为 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

说明
han

在形成中日韩术语的二元组时忽略汉文字。

hiragana

在形成 CJK 术语的二元组时忽略平假名脚本。

katakana

在形成 CJK 术语的二元组时忽略片假名脚本。

hangul

在形成 CJK 术语的二元组时忽略韩文脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化以及惩罚仅部分匹配搜索查询的文档的协调因素。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

基于语法的分词器,适用于处理大多数欧洲语言文档。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定分词器类型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

CommonGramTokenFilter

在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌筛选器类型的 URI 片段。

commonWords

string[]

常用词集。

ignoreCase

boolean

False

指示常用单词匹配是否不区分大小写的值。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

queryMode

boolean

False

指示令牌筛选器是否处于查询模式的值。 在查询模式下,令牌筛选器会生成二元组,然后删除常用单词和单个术语,然后删除一个常用单词。 默认值为 false。

CorsOptions

定义用于控制索引的跨域资源共享 (CORS) 的选项。

名称 类型 说明
allowedOrigins

string[]

JavaScript 代码将被授予对索引访问权限的来源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不推荐)。

maxAgeInSeconds

integer (int64)

浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。

CustomAnalyzer

允许您控制将文本转换为可索引/可搜索标记的过程。 它是一个用户定义的配置,由单个预定义分词器和一个或多个过滤器组成。 分词器负责将文本分解为标记,过滤器负责修改分词器发出的标记。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器类型的 URI 片段。

charFilters

CharFilterName[]

用于在分词器处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。

name

string

分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenFilters

TokenFilterName[]

用于过滤掉或修改分词器生成的令牌的令牌过滤器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。

tokenizer

LexicalTokenizerName

用于将连续文本划分为一系列标记的标记器的名称,例如将句子分解为单词。

CustomNormalizer

允许您为可过滤、可排序和可分面字段配置规范化,默认情况下,这些字段以严格匹配的方式运行。 这是一个用户定义的配置,由至少一个或多个过滤器组成,这些过滤器修改存储的令牌。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

指定规范化程序类型的 URI 片段。

charFilters

CharFilterName[]

用于在处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。

name

string

规范化器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 它不能以“.microsoft”或“.lucene”结尾,也不能命名为“asciifolding”、“standard”、“lowercase”、“uppercase”或“elision”。

tokenFilters

TokenFilterName[]

用于过滤或修改输入令牌的令牌筛选器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。

DictionaryDecompounderTokenFilter

分解许多日耳曼语言中的复合词。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌筛选器类型的 URI 片段。

maxSubwordSize

integer (int32)

maximum: 300
15

最大子字大小。 仅输出短于此的子词。 默认为 15. 最大值为 300。

minSubwordSize

integer (int32)

maximum: 300
2

最小子字大小。 仅输出比此长度更长的子词。 默认值为 2。 最大值为 300。

minWordSize

integer (int32)

maximum: 300
5

最小字数。 只有比这更长的单词才会被处理。 默认值为 5。 最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyLongestMatch

boolean

False

指示是否仅将最长的匹配子词添加到输出中的值。 默认值为 false。

wordList

string[]

要匹配的单词列表。

DistanceScoringFunction

定义一个函数,该函数根据与地理位置的距离提高分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

distance

DistanceScoringParameters

距离评分函数的参数值。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,指示如何在文档分数之间插值提升;默认为“线性”。

type string:

distance

指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。

DistanceScoringParameters

为距离评分函数提供参数值。

名称 类型 说明
boostingDistance

number (double)

距提升范围结束的参考位置的距离(以公里为单位)。

referencePointParameter

string

在搜索查询中传递的用于指定引用位置的参数的名称。

EdgeNGramTokenFilter

从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer (int32)

2

最大 n-gram 长度。 默认值为 2。

minGram

integer (int32)

1

最小 n-gram 长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从输入的哪一侧生成 n-gram。 默认值为“front”。

EdgeNGramTokenFilterSide

指定应从输入的哪一侧生成 n-gram。

说明
front

指定应从输入的前面生成 n-gram。

back

指定应从输入的背面生成 n-gram。

EdgeNGramTokenFilterV2

从输入标记的前面或背面开始生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

最大 n-gram 长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从输入的哪一侧生成 n-gram。 默认值为“front”。

EdgeNGramTokenizer

将来自边的输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定分词器类型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

最大 n-gram 长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

ElisionTokenFilter

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌筛选器类型的 URI 片段。

articles

string[]

要删除的文章集。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

ErrorAdditionalInfo

资源管理错误附加信息。

名称 类型 说明
info

object

其他信息。

type

string

其他信息类型。

ErrorDetail

错误详细信息。

名称 类型 说明
additionalInfo

ErrorAdditionalInfo[]

错误附加信息。

code

string

错误代码。

details

ErrorDetail[]

错误详细信息。

message

string

错误消息。

target

string

错误目标。

ErrorResponse

错误响应

名称 类型 说明
error

ErrorDetail

错误对象。

ExhaustiveKnnParameters

包含特定于穷尽 KNN 算法的参数。

名称 类型 说明
metric

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将对整个向量索引执行暴力搜索。

名称 类型 说明
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含特定于穷尽 KNN 算法的参数。

kind string:

exhaustiveKnn

配置为用于矢量搜索的算法类型的名称。

name

string

要与此特定配置关联的名称。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提高分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

freshness

FreshnessScoringParameters

新鲜度评分函数的参数值。

interpolation

ScoringFunctionInterpolation

一个值,指示如何在文档分数之间插值提升;默认为“线性”。

type string:

freshness

指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

名称 类型 说明
boostingDuration

string (duration)

特定文档的加速将停止的到期期限。

HnswParameters

包含特定于 HNSW 算法的参数。

名称 类型 默认值 说明
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

包含最近邻的动态列表的大小,在索引时使用。 增加此参数可能会提高索引质量,但代价是索引时间增加。 在某个时候,增加该参数会导致收益递减。

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

包含最近邻的动态列表的大小,在搜索时使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加该参数会导致收益递减。

m

integer (int32)

minimum: 4
maximum: 10
4

在构造期间为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加和索引时间延长。

metric

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。

HnswVectorSearchAlgorithmConfiguration

包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。

名称 类型 说明
hnswParameters

HnswParameters

包含特定于 HNSW 算法的参数。

kind string:

hnsw

配置为用于矢量搜索的算法类型的名称。

name

string

要与此特定配置关联的名称。

InputFieldMappingEntry

技能的输入字段映射。

名称 类型 说明
inputs

InputFieldMappingEntry[]

创建复杂类型时使用的递归输入。

name

string

输入的名称。

source

string

输入的源。

sourceContext

string

用于选择递归输入的源上下文。

KeepTokenFilter

一种令牌筛选器,仅保留指定单词列表中包含文本的令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌筛选器类型的 URI 片段。

keepWords

string[]

要保留的单词列表。

keepWordsCase

boolean

False

指示是否先将所有单词小写的值。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

指示是否忽略大小写的值。 如果为 true,则所有单词首先转换为小写。 默认值为 false。

keywords

string[]

要标记为关键字的单词列表。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizer

将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定分词器类型的 URI 片段。

bufferSize

integer (int32)

256

读取缓冲区大小(以字节为单位)。 默认值为 256。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizerV2

将整个输入作为单个标记发出。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定分词器类型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
256

最大令牌长度。 默认值为 256。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LengthTokenFilter

删除太长或太短的单词。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌筛选器类型的 URI 片段。

max

integer (int32)

maximum: 300
300

最大长度(以字符为单位)。 默认值和最大值为 300。

min

integer (int32)

maximum: 300
0

最小长度(以字符为单位)。 默认为 0。 最大值为 300。 必须小于 max 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

说明
ar.microsoft

Microsoft 阿拉伯语分析器。

ar.lucene

阿拉伯语 Lucene 分析仪。

hy.lucene

亚美尼亚语的 Lucene 分析仪。

bn.microsoft

适用于孟加拉语的 Microsoft 分析器。

eu.lucene

用于巴斯克语的 Lucene 分析仪。

bg.microsoft

保加利亚语的 Microsoft 分析器。

bg.lucene

保加利亚语的 Lucene 分析仪。

ca.microsoft

适用于加泰罗尼亚语的 Microsoft 分析器。

ca.lucene

用于加泰罗尼亚语的 Lucene 分析仪。

zh-Hans.microsoft

Microsoft 中文分析器(简体)。

zh-Hans.lucene

Lucene 中文分析仪(简体)。

zh-Hant.microsoft

Microsoft 中文分析器(繁体)。

zh-Hant.lucene

Lucene 中文分析仪(繁体)。

hr.microsoft

克罗地亚语的 Microsoft 分析器。

cs.microsoft

捷克语的 Microsoft 分析器。

cs.lucene

捷克的 Lucene 分析仪。

da.microsoft

丹麦语的 Microsoft 分析器。

da.lucene

丹麦语 Lucene 分析仪。

nl.microsoft

适用于荷兰语的 Microsoft 分析器。

nl.lucene

荷兰语的 Lucene 分析仪。

en.microsoft

Microsoft Analyzer for English。

en.lucene

Lucene 分析仪,用于英语。

et.microsoft

爱沙尼亚语的 Microsoft 分析器。

fi.microsoft

芬兰语的 Microsoft 分析器。

fi.lucene

芬兰语的 Lucene 分析仪。

fr.microsoft

法语的 Microsoft 分析器。

fr.lucene

法语 Lucene 分析仪。

gl.lucene

用于加利西亚语的 Lucene 分析仪。

de.microsoft

德语的 Microsoft 分析器。

de.lucene

德语 Lucene 分析仪。

el.microsoft

希腊语的 Microsoft 分析器。

el.lucene

希腊语 Lucene 分析仪。

gu.microsoft

古吉拉特语的 Microsoft 分析器。

he.microsoft

希伯来语的 Microsoft 分析器。

hi.microsoft

印地语的 Microsoft 分析器。

hi.lucene

印地语 Lucene 分析仪。

hu.microsoft

匈牙利语的 Microsoft 分析器。

hu.lucene

匈牙利语的 Lucene 分析仪。

is.microsoft

冰岛语的 Microsoft 分析器。

id.microsoft

Microsoft 印度尼西亚语分析器 (印尼语)。

id.lucene

印度尼西亚语的 Lucene 分析仪。

ga.lucene

爱尔兰语 Lucene 分析仪。

it.microsoft

意大利语的 Microsoft 分析器。

it.lucene

意大利语 Lucene 分析仪。

ja.microsoft

日语的 Microsoft 分析器。

ja.lucene

日语 Lucene 分析仪。

kn.microsoft

适用于卡纳达语的 Microsoft 分析器。

ko.microsoft

韩语的 Microsoft 分析器。

ko.lucene

韩语Lucene分析仪。

lv.microsoft

Microsoft Analyzer for Latvian。

lv.lucene

拉脱维亚的 Lucene 分析仪。

lt.microsoft

立陶宛语的 Microsoft 分析器。

ml.microsoft

适用于马拉雅拉姆语的 Microsoft 分析器。

ms.microsoft

Microsoft 马来语分析器(拉丁语)。

mr.microsoft

Microsoft 马拉地语分析器。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål)。

no.lucene

挪威的 Lucene 分析仪。

fa.lucene

用于波斯语的 Lucene 分析仪。

pl.microsoft

适用于波兰语的 Microsoft 分析器。

pl.lucene

用于波兰语的 Lucene 分析仪。

pt-BR.microsoft

葡萄牙语(巴西)的 Microsoft 分析器。

pt-BR.lucene

葡萄牙语(巴西)的 Lucene 分析仪。

pt-PT.microsoft

Microsoft Analyzer for Portuguese (葡萄牙) 。

pt-PT.lucene

葡萄牙语(葡萄牙)的 Lucene 分析仪。

pa.microsoft

旁遮普语的 Microsoft 分析器。

ro.microsoft

罗马尼亚语的 Microsoft 分析器。

ro.lucene

罗马尼亚语的 Lucene 分析仪。

ru.microsoft

俄语的 Microsoft 分析器。

ru.lucene

俄语 Lucene 分析仪。

sr-cyrillic.microsoft

塞尔维亚语(西里尔文)的 Microsoft 分析器。

sr-latin.microsoft

Microsoft 塞尔维亚语分析器(拉丁语)。

sk.microsoft

Microsoft Analyzer for Slovak。

sl.microsoft

Microsoft 分析器 for Slovenian。

es.microsoft

西班牙语的 Microsoft 分析器。

es.lucene

西班牙语的 Lucene 分析仪。

sv.microsoft

瑞典语的 Microsoft 分析器。

sv.lucene

瑞典语 Lucene 分析仪。

ta.microsoft

泰米尔语的 Microsoft 分析器。

te.microsoft

泰卢固语的 Microsoft 分析器。

th.microsoft

适用于泰语的 Microsoft 分析器。

th.lucene

泰式 Lucene 分析仪。

tr.microsoft

土耳其语的 Microsoft 分析器。

tr.lucene

土耳其语 Lucene 分析仪。

uk.microsoft

乌克兰语的 Microsoft 分析器。

ur.microsoft

乌尔都语的 Microsoft 分析器。

vi.microsoft

Microsoft 越南语分析器。

standard.lucene

标准 Lucene 分析仪。

standardasciifolding.lucene

标准 ASCII 折叠 Lucene 分析仪。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据很有用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

通过正则表达式模式灵活地将文本分隔为术语。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

在非字母处划分文本;应用小写和停用词标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

使用空格分词器的分析器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

说明
asciifolding

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

标准归一化器,由小写和 asciifolding 组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

说明
classic

基于语法的分词器,适用于处理大多数欧洲语言文档。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

将来自边的输入标记为给定大小的 n 克。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

将整个输入作为单个标记发出。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

在非字母处划分文本。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

使用特定于语言的规则划分文本。

microsoft_language_stemming_tokenizer

使用特定于语言的规则划分文本,并将单词简化为基本形式。

nGram

将输入标记为给定大小的 n 克。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

用于类似路径的层次结构的分词器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

使用正则表达式模式匹配来构造不同标记的标记器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

标准Lucene分析仪;由标准分词器、小写过滤器和停止过滤器组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

将 url 和电子邮件标记为一个标记。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

在空格处划分文本。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

限制索引时的令牌数量。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌筛选器类型的 URI 片段。

consumeAllTokens

boolean

False

一个值,指示即使达到 maxTokenCount,是否也必须使用输入中的所有令牌。 默认值为 false。

maxTokenCount

integer (int32)

1

要生成的最大令牌数。 默认值为 1。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准分词器、小写过滤器和停止过滤器组成。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器类型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

停用词列表。

LuceneStandardTokenizer

按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定分词器类型的 URI 片段。

maxTokenLength

integer (int32)

255

最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardTokenizerV2

按照 Unicode 文本分段规则中断文本。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定分词器类型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提高分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,指示如何在文档分数之间插值提升;默认为“线性”。

magnitude

MagnitudeScoringParameters

幅度评分函数的参数值。

type string:

magnitude

指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。

MagnitudeScoringParameters

为幅度评分函数提供参数值。

名称 类型 说明
boostingRangeEnd

number (double)

提升结束的字段值。

boostingRangeStart

number (double)

开始提升的字段值。

constantBoostBeyondRange

boolean

指示是否对超出范围结束值的字段值应用恒定提升的值;默认值为 false。

MappingCharFilter

应用使用 mappings 选项定义的映射的字符过滤器。 匹配是贪婪的(在给定点上最长的模式匹配获胜)。 允许替换为空字符串。 此字符过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字符过滤器类型的 URI 片段。

mappings

string[]

以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。

name

string

字符过滤器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词简化为基本形式。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定分词器类型的 URI 片段。

isSearchTokenizer

boolean

False

指示如何使用分词器的值。 如果用作搜索分词器,则设置为 true,如果用作索引分词器,则设置为 false。 默认值为 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定分词器类型的 URI 片段。

isSearchTokenizer

boolean

False

指示如何使用分词器的值。 如果用作搜索分词器,则设置为 true,如果用作索引分词器,则设置为 false。 默认值为 false。

language

MicrosoftTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 语言词干提取器支持的语言。

说明
arabic

选择阿拉伯语的 Microsoft 词干提取器。

bangla

选择孟加拉语的 Microsoft 词干提取器。

bulgarian

选择保加利亚语的 Microsoft 词干提取器。

catalan

选择加泰罗尼亚语的 Microsoft 词干提取器。

croatian

选择克罗地亚语的 Microsoft 词干提取器。

czech

选择捷克语的 Microsoft 词干提取器。

danish

选择丹麦语的 Microsoft 词干提取器。

dutch

选择荷兰语的 Microsoft 词干提取器。

english

选择英语的 Microsoft 词干标记器。

estonian

选择爱沙尼亚语的 Microsoft 词干标记器。

finnish

选择芬兰语的 Microsoft 词干提取器。

french

选择法语的 Microsoft 词干提取器。

german

选择德语的 Microsoft 词干提取分词器。

greek

选择希腊语的 Microsoft 词干提取器。

gujarati

选择古吉拉特语的 Microsoft 词干提取标记器。

hebrew

选择希伯来语的 Microsoft 词干提取器。

hindi

选择印地语的 Microsoft 词干标记器。

hungarian

选择匈牙利语的 Microsoft 词干提取器。

icelandic

选择冰岛语的 Microsoft 词干提取分词器。

indonesian

选择印度尼西亚语的 Microsoft 词干提取器。

italian

选择意大利语的 Microsoft 词干提取器。

kannada

选择卡纳达语的 Microsoft 词干提取器。

latvian

选择拉脱维亚语的 Microsoft 词干提取标记器。

lithuanian

选择立陶宛语的 Microsoft 词干标记器。

malay

选择马来语的 Microsoft 词干提取分词器。

malayalam

选择马拉雅拉姆语的 Microsoft 词干提取器。

marathi

选择马拉地语的 Microsoft 词干提取器。

norwegianBokmaal

选择挪威语 (Bokmål) 的 Microsoft 词干提取器。

polish

选择波兰语的 Microsoft 词干提取分词器。

portuguese

选择葡萄牙语的 Microsoft 词干提取分词器。

portugueseBrazilian

选择葡萄牙语(巴西)的 Microsoft 词干提取器。

punjabi

选择旁遮普语的 Microsoft 词干提取器。

romanian

选择罗马尼亚语的 Microsoft 词干提取分词器。

russian

选择俄语的 Microsoft 词干标记器。

serbianCyrillic

选择塞尔维亚语(西里尔文)的 Microsoft 词干提取器。

serbianLatin

选择塞尔维亚语(拉丁语)的 Microsoft 词干提取分词器。

slovak

选择斯洛伐克语的 Microsoft 词干提取器。

slovenian

选择斯洛文尼亚语的 Microsoft 词干提取器。

spanish

选择西班牙语的 Microsoft 词干标记器。

swedish

选择瑞典语的 Microsoft 词干提取分词器。

tamil

选择泰米尔语的 Microsoft 词干提取器。

telugu

选择泰卢固语的 Microsoft 词干提取器。

turkish

选择土耳其语的 Microsoft 词干提取器。

ukrainian

选择乌克兰语的 Microsoft 词干提取器。

urdu

选择乌尔都语的 Microsoft 词干提取器。

MicrosoftTokenizerLanguage

列出 Microsoft 语言分词器支持的语言。

说明
bangla

选择孟加拉语的 Microsoft 分词器。

bulgarian

选择保加利亚语的 Microsoft 分词器。

catalan

选择加泰罗尼亚语的 Microsoft 分词器。

chineseSimplified

选择中文的 Microsoft 分词器(简体)。

chineseTraditional

选择中文(繁体)的 Microsoft 分词器。

croatian

选择克罗地亚语的 Microsoft 分词器。

czech

选择捷克语的 Microsoft 分词器。

danish

选择丹麦语的 Microsoft 分词器。

dutch

选择荷兰语的 Microsoft 分词器。

english

选择英语的 Microsoft 分词器。

french

选择法语的 Microsoft 分词器。

german

选择德语的 Microsoft 分词器。

greek

选择希腊语的 Microsoft 分词器。

gujarati

选择古吉拉特语的 Microsoft 分词器。

hindi

选择印地语的 Microsoft 分词器。

icelandic

选择冰岛语的 Microsoft 分词器。

indonesian

选择印度尼西亚语的 Microsoft 分词器。

italian

选择意大利语的 Microsoft 分词器。

japanese

选择日语的 Microsoft 分词器。

kannada

选择卡纳达语的 Microsoft 分词器。

korean

选择韩语的 Microsoft 分词器。

malay

选择马来语的 Microsoft 分词器。

malayalam

选择马拉雅拉姆语的 Microsoft 分词器。

marathi

选择马拉地语的 Microsoft 分词器。

norwegianBokmaal

选择挪威语 (Bokmål) 的 Microsoft 分词器。

polish

选择波兰语的 Microsoft 分词器。

portuguese

选择葡萄牙语的 Microsoft 分词器。

portugueseBrazilian

选择葡萄牙语(巴西)的 Microsoft 分词器。

punjabi

选择旁遮普语的 Microsoft 分词器。

romanian

选择罗马尼亚语的 Microsoft 分词器。

russian

选择俄语的 Microsoft 分词器。

serbianCyrillic

选择塞尔维亚语(西里尔文)的 Microsoft 分词器。

serbianLatin

选择塞尔维亚语(拉丁语)的 Microsoft 分词器。

slovenian

选择斯洛文尼亚语的 Microsoft 分词器。

spanish

选择西班牙语的 Microsoft 分词器。

swedish

选择瑞典语的 Microsoft 分词器。

tamil

选择泰米尔语的 Microsoft 分词器。

telugu

选择泰卢固语的 Microsoft 分词器。

thai

选择泰语的 Microsoft 分词器。

ukrainian

选择乌克兰语的 Microsoft 分词器。

urdu

选择乌尔都语的 Microsoft 分词器。

vietnamese

选择越南语的 Microsoft 分词器。

NGramTokenFilter

生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer (int32)

2

最大 n-gram 长度。 默认值为 2。

minGram

integer (int32)

1

最小 n-gram 长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenFilterV2

生成给定大小的 n-gram。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

最大 n-gram 长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenizer

将输入标记为给定大小的 n 克。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定分词器类型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

最大 n-gram 长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

OutputFieldMappingEntry

技能的输出字段映射。

名称 类型 说明
name

string

技能定义的输出的名称。

targetName

string

输出的目标名称。 它是可选的,默认为 name。

PathHierarchyTokenizerV2

用于类似路径的层次结构的分词器。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定分词器类型的 URI 片段。

delimiter

string (char)

/

要使用的分隔符。 默认值为“/”。

maxTokenLength

integer (int32)

maximum: 300
300

最大令牌长度。 默认值和最大值为 300。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replacement

string (char)

/

如果设置,则替换分隔符的值。 默认值为“/”。

reverse

boolean

False

指示是否以相反顺序生成令牌的值。 默认值为 false。

skip

integer (int32)

0

要跳过的初始令牌数。 默认为 0。

PatternAnalyzer

通过正则表达式模式灵活地将文本分隔为术语。 此分析器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

lowercase

boolean

True

指示术语是否应小写的值。 默认值为 true。

name

string

分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。

stopwords

string[]

停用词列表。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

patterns

string[]

要与每个标记匹配的模式列表。

preserveOriginal

boolean

True

一个值,指示是否返回原始标记,即使其中一个模式匹配。 默认值为 true。

PatternReplaceCharFilter

替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此字符过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字符过滤器类型的 URI 片段。

name

string

字符过滤器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternReplaceTokenFilter

替换输入字符串中字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、模式“(aa)\s+(bb)”和替换“$1#$2”,结果将是“aa#bb aa#bb”。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternTokenizer

使用正则表达式模式匹配来构造不同标记的标记器。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定分词器类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

group

integer (int32)

-1

正则表达式模式中匹配组的从零开始的序号,要提取到标记中。 如果要使用整个模式将输入拆分为标记,则使用 -1,而不考虑匹配的组。 默认值为 -1。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。

说明
metaphone

将令牌编码为 Metaphone 值。

doubleMetaphone

将标记编码为双元音值。

soundex

将标记编码为 Soundex 值。

refinedSoundex

将标记编码为精炼的 Soundex 值。

caverphone1

将标记编码为 Caverphone 1.0 值。

caverphone2

将标记编码为 Caverphone 2.0 值。

cologne

将标记编码为科隆语音值。

nysiis

将代币编码为 NYSIIS 值。

koelnerPhonetik

使用 Kölner Phonetik 算法对令牌进行编码。

haasePhonetik

使用 Kölner Phonetik 算法的 Haase 细化对标记进行编码。

beiderMorse

将令牌编码为 Beider-Morse 值。

PhoneticTokenFilter

为语音匹配创建标记。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌筛选器类型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的语音编码器。 默认值为“metaphone”。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replace

boolean

True

指示编码令牌是否应替换原始令牌的值。 如果为 false,则将编码标记添加为同义词。 默认值为 true。

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

名称 类型 说明
prioritizedContentFields

SemanticField[]

定义要用于语义排名、标题、突出显示和答案的内容字段。 为获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。

prioritizedKeywordsFields

SemanticField[]

定义要用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。

titleField

SemanticField

定义要用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将其留空。

RankingOrder

表示用于文档排序顺序的分数。

说明
BoostedRerankerScore

将排序顺序设置为 BoostedRerankerScore

RerankerScore

将排序顺序设置为 ReRankerScore

RegexFlags

定义可以组合的标志,以控制正则表达式在模式分析器和模式分词器中的使用方式。

说明
CANON_EQ

启用规范等效性。

CASE_INSENSITIVE

启用不区分大小写的匹配。

COMMENTS

允许模式中的空格和注释。

DOTALL

启用点模式。

LITERAL

启用模式的文字解析。

MULTILINE

启用多行模式。

UNICODE_CASE

启用 Unicode 感知大小写折叠。

UNIX_LINES

启用 Unix 线路模式。

RescoringOptions

包含重新评分的选项。

名称 类型 默认值 说明
defaultOversampling

number (double)

默认过采样因子。 过采样检索更多的潜在文档集,以抵消由于量化而造成的分辨率损失。 这增加了将在全精度向量上重新评分的结果集。 最小值为 1,表示没有过采样 (1x)。 只有当 'enableRescoring' 为 true 时,才能设置此参数。 较高的值会以延迟为代价提高召回率。

enableRescoring

boolean

True

如果设置为 true,则在对压缩向量进行初始搜索后,将使用全精度向量重新计算相似性分数。 这将以延迟为代价提高召回率。

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

控制原始矢量的存储方法。 此设置是不可变的。

ScalarQuantizationParameters

包含特定于标量量化的参数。

名称 类型 说明
quantizedDataType

VectorSearchCompressionTargetDataType

压缩向量值的量化数据类型。

ScalarQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

名称 类型 说明
kind string:

scalarQuantization

配置为与矢量搜索一起使用的压缩方法类型的名称。

name

string

要与此特定配置关联的名称。

rescoringOptions

RescoringOptions

包含重新评分的选项。

scalarQuantizationParameters

ScalarQuantizationParameters

包含特定于标量量化的参数。

truncationDimension

integer (int32)

要截断向量的维数。 截断向量可以减小向量的大小和搜索期间需要传输的数据量。 这可以节省存储成本并提高搜索性能,但代价是召回率。 它只能用于使用套娃表示学习 (MRL) 训练的嵌入,例如 OpenAI text-embedding-3-large (small)。 默认值为 null,这意味着没有截断。

ScoringFunctionAggregation

定义用于组合评分配置文件中所有评分函数的结果的聚合函数。

说明
sum

通过所有评分函数结果的总和来提升分数。

average

通过所有评分函数结果的平均值来提升分数。

minimum

提高所有评分函数结果的最小值。

maximum

将分数提高到所有评分函数结果的最大值。

firstMatching

使用评分配置文件中的第一个适用评分函数提高分数。

ScoringFunctionInterpolation

定义用于在一系列文档中插值分数提升的函数。

说明
linear

以线性递减的量提高分数。 这是评分函数的默认插值。

constant

通过恒定系数提高分数。

quadratic

将分数提高二次方递减的量。 分数越高,提升会缓慢下降,随着分数的下降,提升会越快。 标签评分函数不允许使用此插值选项。

logarithmic

将分数提高对数递减的量。 分数越高,提升会迅速减少,而随着分数的降低,提升会越慢。 标签评分函数不允许使用此插值选项。

ScoringProfile

定义影响搜索查询评分的搜索索引的参数。

名称 类型 说明
functionAggregation

ScoringFunctionAggregation

指示如何组合各个评分函数的结果的值。 默认为“Sum”。 如果没有评分函数,则忽略。

functions ScoringFunction[]:

影响文档评分的函数集合。

name

string

评分配置文件的名称。

text

TextWeights

根据某些索引字段中的文本匹配提高评分的参数。

SearchField

表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。

名称 类型 说明
analyzer

LexicalAnalyzerName

要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 一旦选择了分析器,就无法针对该字段进行更改。 对于复杂字段,必须为 null。

dimensions

integer (int32)

minimum: 2
maximum: 4096

矢量场的维数。

facetable

boolean

指示是否启用在分面查询中引用字段的值。 通常在按类别包含命中次数的搜索结果展示中使用(例如,搜索数码相机并按品牌、像素、价格等查看命中)。 对于复杂字段,此属性必须为 null。 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 类型的字段不能是可分面的。 对于所有其他简单字段,默认值为 true。

fields

SearchField[]

如果子字段是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType) 的字段,则为子字段列表。 对于简单字段,必须为 null 或空。

filterable

boolean

指示是否启用在$filter查询中引用该字段的值。 filterable 与 searchable 在字符串的处理方式上有所不同。 可筛选的 Edm.String 或 Collection(Edm.String) 类型的字段不会进行断词处理,因此比较仅用于完全匹配。 例如,如果将这样的字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 会找到匹配项。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。

indexAnalyzer

LexicalAnalyzerName

在为字段编制索引时使用的分析器的名称。 此选项只能用于可搜索字段。 它必须与 searchAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用 analyzer 属性。 一旦选择了分析器,就无法针对该字段进行更改。 对于复杂字段,必须为 null。

key

boolean

指示该字段是否唯一标识索引中的文档的值。 必须选择每个索引中只有一个顶级字段作为键字段,并且该字段必须是 Edm.String 类型。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,对于复杂字段,默认值为 null。

name

string

字段的名称,在索引或父字段的字段集合中必须是唯一的。

normalizer

LexicalNormalizerName

要用于字段的规范化器的名称。 此选项只能用于启用了可过滤、可排序或可分面的字段。 选择归一化器后,无法为字段更改它。 对于复杂字段,必须为 null。

retrievable

boolean

指示是否可以在搜索结果中返回该字段的值。 如果要将字段(例如边距)用作筛选、排序或评分机制,但不希望该字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,对于向量字段为 false,对于复杂字段,默认值为 null。

searchAnalyzer

LexicalAnalyzerName

在搜索字段时使用的分析器的名称。 此选项只能用于可搜索字段。 它必须与 indexAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用 analyzer 属性。 可以在现有字段上更新此分析器。 对于复杂字段,必须为 null。

searchable

boolean

指示字段是否可全文搜索的值。 这意味着它将在索引过程中进行诸如断字等分析。 如果将可搜索字段设置为“sunny day”等值,则在内部它将拆分为单独的标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可以搜索 Edm.String 或 Collection(Edm.String) 类型的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段会占用索引中的额外空间,以容纳用于全文搜索的字段值的其他标记化版本。 如果要节省索引中的空间,并且不需要在搜索中包含字段,请将 searchable 设置为 false。

sortable

boolean

指示是否启用在$orderby表达式中引用字段的值。 默认情况下,搜索引擎按分数对结果进行排序,但在许多体验中,用户会希望按文档中的字段进行排序。 仅当简单字段是单值的(它在父文档的作用域中具有单个值)时,它才能进行排序。 简单集合字段不能排序,因为它们是多值的。 复杂集合的简单子字段也是多值的,因此无法排序。 无论是直接父字段还是上级字段,都是如此,这就是复杂的集合。 复杂字段不能进行排序,并且此类字段的 sortable 属性必须为 null。 对于单值简单字段,sortable 的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。

stored

boolean

一个不可变值,指示该字段是否将单独保留在磁盘上以在搜索结果中返回。 如果您不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在索引创建期间设置,并且只能针对向量字段进行设置。 不能更改现有字段的此属性,也不能将新字段设置为 false。 如果此属性设置为 false,则属性“retrievable”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,对于复杂字段必须为 null。 禁用此属性将减少索引存储要求。 对于矢量场,默认值为 true。

synonymMaps

string[]

要与此字段关联的同义词映射的名称列表。 此选项只能用于可搜索字段。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。

type

SearchFieldDataType

字段的数据类型。

vectorEncoding

VectorEncodingFormat

用于解释字段内容的编码格式。

vectorSearchProfile

string

向量搜索配置文件的名称,用于指定搜索向量字段时要使用的算法和矢量化器。

SearchFieldDataType

定义搜索索引中字段的数据类型。

说明
Edm.String

指示字段包含字符串。

Edm.Int32

指示字段包含 32 位有符号整数。

Edm.Int64

指示字段包含 64 位有符号整数。

Edm.Double

指示字段包含 IEEE 双精度浮点数。

Edm.Boolean

指示字段包含布尔值(true 或 false)。

Edm.DateTimeOffset

指示字段包含日期/时间值,包括时区信息。

Edm.GeographyPoint

指示字段包含经度和纬度方面的地理位置。

Edm.ComplexType

指示字段包含一个或多个复杂对象,而这些对象又具有其他类型的子字段。

Edm.Single

指示字段包含单精度浮点数。 这仅在与 Collection(Edm.Single) 一起使用时有效。

Edm.Half

指示字段包含半精度浮点数。 这仅在与 Collection(Edm.Half) 一起使用时有效。

Edm.Int16

指示字段包含 16 位有符号整数。 这仅在与 Collection(Edm.Int16) 一起使用时有效。

Edm.SByte

指示字段包含 8 位有符号整数。 这仅在与 Collection(Edm.SByte) 一起使用时有效。

Edm.Byte

指示字段包含 8 位无符号整数。 这仅在与 Collection(Edm.Byte) 一起使用时有效。

SearchIndex

表示搜索索引定义,它描述索引的字段和搜索行为。

名称 类型 说明
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享 (CORS) 的选项。

defaultScoringProfile

string

如果查询中未指定任何评分配置文件,则要使用的评分配置文件的名称。 如果未设置此属性,并且在查询中未指定评分配置文件,则将使用默认评分 (tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

在 Azure Key Vault 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;您的数据将不受影响。 使用客户管理的密钥进行加密不适用于免费搜索服务,仅适用于 2019 年 1 月 1 日或之后创建的付费服务。

fields

SearchField[]

索引的字段。

name

string

索引的名称。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的规范化器。

scoringProfiles

ScoringProfile[]

索引的评分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

对与搜索查询匹配的文档进行评分和排名时要使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能在现有索引上进行修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议。

tokenFilters TokenFilter[]:

索引的令牌筛选器。

tokenizers LexicalTokenizer[]:

索引的分词器。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定身份类型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定身份类型的 URI 片段。

userAssignedIdentity

string

用户分配的托管标识的完全限定的 Azure 资源 ID,通常采用“/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”的形式,应分配给搜索服务。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

名称 类型 说明
accessCredentials

AzureActiveDirectoryApplicationCredentials

用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。

keyVaultKeyName

string

用于加密静态数据的 Azure Key Vault 密钥的名称。

keyVaultKeyVersion

string

用于加密静态数据的 Azure Key Vault 密钥版本。

keyVaultUri

string

Azure 密钥保管库的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 一个示例 URI 可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定义要在语义功能上下文中使用的特定配置。

名称 类型 说明
name

string

语义配置的名称。

prioritizedFields

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 需要设置三个子属性(titleField、prioritizedKeywordsFields 和 prioritizedContentFields)中的至少一个。

rankingOrder

RankingOrder

指定用于搜索结果排序顺序的分数类型。

SemanticField

用作语义配置一部分的字段。

名称 类型 说明
fieldName

string

SemanticSettings

定义影响语义功能的搜索索引的参数。

名称 类型 说明
configurations

SemanticConfiguration[]

索引的语义配置。

defaultConfiguration

string

允许您在索引中设置默认语义配置的名称,以便每次都将其作为查询参数传递是可选的。

ShingleTokenFilter

将令牌组合创建为单个令牌。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌筛选器类型的 URI 片段。

filterToken

string

_

要为没有标记的每个位置插入的字符串。 默认值为下划线(“_”)。

maxShingleSize

integer (int32)

minimum: 2
2

最大木瓦尺寸。 默认值和最小值为 2。

minShingleSize

integer (int32)

minimum: 2
2

最小木瓦尺寸。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

True

指示输出流是否包含输入标记(单形)和带状疱疹的值。 默认值为 true。

outputUnigramsIfNoShingles

boolean

False

一个值,指示是否在没有可用带状疱疹时输出 unigram。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。

tokenSeparator

string

连接相邻标记以形成木瓦时使用的字符串。 默认值为单个空格 (“ ”)。

SnowballTokenFilter

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌筛选器类型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

说明
armenian

为亚美尼亚语选择 Lucene Snowball 词干标记器。

basque

选择巴斯克语的 Lucene Snowball 词干标记器。

catalan

选择加泰罗尼亚语的 Lucene Snowball 词干标记器。

danish

为丹麦语选择 Lucene Snowball 词干标记器。

dutch

选择 Dutch 的 Lucene Snowball 词干标记器。

english

为英语选择 Lucene Snowball 词干标记器。

finnish

为芬兰语选择 Lucene Snowball 词干标记器。

french

为法语选择 Lucene Snowball 词干标记器。

german

选择德语的 Lucene Snowball 词干标记器。

german2

选择使用德语变体算法的 Lucene Snowball 词干提取器。

hungarian

为匈牙利语选择 Lucene Snowball 词干标记器。

italian

为意大利语选择 Lucene Snowball 词干标记器。

kp

选择使用 dutch 的 Lucene Snowball 词干提取器,该分词器使用 Kraaij-Pohlmann 词干提取算法。

lovins

为使用 Lovins 词干提取算法的英语选择 Lucene Snowball 词干提取器。

norwegian

为挪威语选择 Lucene Snowball 词干标记器。

porter

选择使用 Porter 词干提取算法的英语的 Lucene Snowball 词干标记器。

portuguese

为葡萄牙语选择 Lucene Snowball 词干标记器。

romanian

为罗马尼亚语选择 Lucene Snowball 词干标记器。

russian

为俄语选择 Lucene Snowball 词干标记器。

spanish

为西班牙语选择 Lucene Snowball 词干标记器。

swedish

为瑞典语选择 Lucene Snowball 词干标记器。

turkish

为土耳其语选择 Lucene Snowball 词干标记器。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干提取覆盖其他词干提取过滤器的功能。 任何词干词干术语都将被标记为关键字,这样它们就不会被链下游的词干分析器所用词干词干处理。 必须放置在任何词干过滤器之前。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

rules

string[]

以下格式的词干删除规则列表:“word => stem”,例如:“ran => run”。

StemmerTokenFilter

特定于语言的词干筛选器。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌筛选器类型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

说明
arabic

为阿拉伯语选择 Lucene 词干标记器。

armenian

选择亚美尼亚语的 Lucene 词干标记器。

basque

选择巴斯克语的 Lucene 词干标记器。

brazilian

为葡萄牙语(巴西)选择 Lucene 词干标记器。

bulgarian

选择保加利亚语的 Lucene 词干标记器。

catalan

选择加泰罗尼亚语的 Lucene 词干标记器。

czech

选择捷克语的 Lucene 词干提取器。

danish

为丹麦语选择 Lucene 词干标记器。

dutch

选择荷兰语的 Lucene 词干标记器。

dutchKp

为使用 Kraaij-Pohlmann 词干提取算法的 Dutch 选择 Lucene 词干提取器。

english

选择英语的 Lucene 词干标记器。

lightEnglish

为执行轻词干提取的英语选择 Lucene 词干标记器。

minimalEnglish

为英语选择执行最小词干提取的 Lucene 词干提取器。

possessiveEnglish

选择英语的 Lucene 词干标记器,该标记器从单词中删除尾随所有格。

porter2

选择使用 Porter2 词干提取算法的英语的 Lucene 词干提取器。

lovins

选择使用 Lovins 词干提取算法的英语的 Lucene 词干提取器。

finnish

为芬兰语选择 Lucene 词干标记器。

lightFinnish

为芬兰语选择执行轻词干提取的 Lucene 词干标记器。

french

选择法语的 Lucene 词干标记器。

lightFrench

为法语选择执行轻词干提取的 Lucene 词干标记器。

minimalFrench

为法语选择执行最小词干提取的 Lucene 词干标记器。

galician

选择 Galician 的 Lucene 词干标记器。

minimalGalician

为加利西亚语选择执行最小词干提取的 Lucene 词干标记器。

german

选择德语的 Lucene 词干标记器。

german2

选择使用德语变体算法的 Lucene 词干标记器。

lightGerman

为执行轻词干提取的德语选择 Lucene 词干标记器。

minimalGerman

为德语选择执行最小词干提取的 Lucene 词干标记器。

greek

选择希腊语的 Lucene 词干标记器。

hindi

选择印地语的 Lucene 词干提取器。

hungarian

选择匈牙利语的 Lucene 词干标记器。

lightHungarian

为匈牙利语选择执行轻词干提取的 Lucene 词干标记器。

indonesian

选择印度尼西亚语的 Lucene 词干提取器。

irish

选择爱尔兰语的 Lucene 词干标记器。

italian

选择意大利语的 Lucene 词干标记器。

lightItalian

为意大利语选择执行轻词干提取的 Lucene 词干标记器。

sorani

选择 Sorani 的 Lucene 词干提取器。

latvian

选择拉脱维亚语的 Lucene 词干标记器。

norwegian

选择挪威语 (Bokmål) 的 Lucene 词干标记器。

lightNorwegian

为挪威语 (Bokmål) 选择执行轻词干提取的 Lucene 词干标记器。

minimalNorwegian

为挪威语 (Bokmål) 选择执行最小词干提取的 Lucene 词干标记器。

lightNynorsk

为挪威语(尼诺斯克)选择执行轻词干提取的 Lucene 词干标记器。

minimalNynorsk

为挪威语(尼诺斯克)选择执行最小词干提取的 Lucene 词干提取器。

portuguese

选择葡萄牙语的 Lucene 词干标记器。

lightPortuguese

为葡萄牙语选择执行轻词干提取的 Lucene 词干标记器。

minimalPortuguese

为葡萄牙语选择执行最小词干提取的 Lucene 词干标记器。

portugueseRslp

选择使用 RSLP 词干提取算法的葡萄牙语的 Lucene 词干提取器。

romanian

为罗马尼亚语选择 Lucene 词干标记器。

russian

为俄语选择 Lucene 词干标记器。

lightRussian

为俄语选择执行轻词干提取的 Lucene 词干标记器。

spanish

选择西班牙语的 Lucene 词干标记器。

lightSpanish

为西班牙语选择执行轻词干提取的 Lucene 词干标记器。

swedish

选择瑞典语的 Lucene 词干标记器。

lightSwedish

为瑞典语选择执行轻词干提取的 Lucene 词干标记器。

turkish

为土耳其语选择 Lucene 词干标记器。

StopAnalyzer

在非字母处划分文本;应用小写和停用词标记筛选器。 此分析器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器类型的 URI 片段。

name

string

分析器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

停用词列表。

StopwordsList

标识特定于语言的停用词的预定义列表。

说明
arabic

选择阿拉伯语的停用词列表。

armenian

选择亚美尼亚语的停用词列表。

basque

选择巴斯克语的停用词列表。

brazilian

选择葡萄牙语(巴西)的停用词列表。

bulgarian

选择保加利亚语的停用词列表。

catalan

选择加泰罗尼亚语的停用词列表。

czech

选择捷克语的停用词列表。

danish

选择丹麦语的停用词列表。

dutch

选择荷兰语的停用词列表。

english

选择英语的停用词列表。

finnish

选择芬兰语的停用词列表。

french

选择法语的停用词列表。

galician

选择加利西亚语的停用词列表。

german

选择德语的停用词列表。

greek

选择希腊语的停用词列表。

hindi

选择印地语的停用词列表。

hungarian

选择匈牙利语的停用词列表。

indonesian

选择印度尼西亚语的停用词列表。

irish

选择爱尔兰语的停用词列表。

italian

选择意大利语的停用词列表。

latvian

选择拉脱维亚语的停用词列表。

norwegian

选择挪威语的停用词列表。

persian

选择波斯语的停用词列表。

portuguese

选择葡萄牙语的停用词列表。

romanian

选择罗马尼亚语的停用词列表。

russian

选择俄语的停用词列表。

sorani

选择 Sorani 的停用词列表。

spanish

选择西班牙语的停用词列表。

swedish

选择瑞典语的停用词列表。

thai

选择泰语的停用词列表。

turkish

选择土耳其语的停用词列表。

StopwordsTokenFilter

从标记流中删除停用词。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

指示是否忽略大小写的值。 如果为 true,则所有单词首先转换为小写。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

removeTrailing

boolean

True

一个值,指示如果最后一个搜索词是停用词,则是否忽略该搜索词。 默认值为 true。

stopwords

string[]

停用词列表。 不能同时设置此属性和停用词列表属性。

stopwordsList

StopwordsList

english

要使用的停用词的预定义列表。 不能同时设置此属性和停用词属性。 默认为英语。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

名称 类型 说明
name

string

建议者的名称。

searchMode

SuggesterSearchMode

指示建议器功能的值。

sourceFields

string[]

建议器适用的字段名称列表。 每个字段都必须是可搜索的。

SuggesterSearchMode

指示建议器功能的值。

说明
analyzingInfixMatching

匹配字段中连续的整项和前缀。 例如,对于字段“The fastest brown fox”,查询“fast”和“fastest brow”将匹配。

SynonymTokenFilter

匹配令牌流中的单个或多个单词同义词。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌筛选器类型的 URI 片段。

expand

boolean

True

一个值,指示同义词列表中的所有单词(如果未使用 => 表示法)是否相互映射。 如果为 true,则同义词列表中的所有单词(如果未使用 => 表示法)将相互映射。 以下列表:不可思议、不可思议、神话般地、惊人相当于:不可思议、不可思议、不可思议、神话般地、令人惊叹> =不可思议、难以置信、神话般地、令人惊叹。 如果为 false,则以下列表:incredible、unbelievable、fabulous、amazing 将等效于:incredible、unbelievable、fabulous、amazing => incredible。 默认值为 true。

ignoreCase

boolean

False

指示是否对输入进行大小写折叠以进行匹配的值。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

synonyms

string[]

以下两种格式之一的同义词列表: 1. 不可思议、难以置信、神话般的 => 惊人 - => 符号左侧的所有术语都将替换为其右侧的所有术语;2. 不可思议、难以置信、神话般的、惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。

TagScoringFunction

定义一个函数,用于提升字符串值与给定标记列表匹配的文档的分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,指示如何在文档分数之间插值提升;默认为“线性”。

tag

TagScoringParameters

标记评分函数的参数值。

type string:

tag

指示要使用的函数类型。 有效值包括大小、新鲜度、距离和标签。 函数类型必须是小写的。

TagScoringParameters

为标记评分函数提供参数值。

名称 类型 说明
tagsParameter

string

在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。

TextWeights

定义索引字段的权重,这些匹配项应提高搜索查询中的评分。

名称 类型 说明
weights

object

用于提高文档评分的每个字段权重的字典。 键是字段名称,值是每个字段的权重。

TokenCharacterKind

表示令牌筛选器可以作的字符类。

说明
letter

将字母保存在标记中。

digit

在标记中保留数字。

whitespace

在标记中保留空格。

punctuation

在标记中保留标点符号。

symbol

将符号保留在标记中。

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

说明
arabic_normalization

应用阿拉伯语规范化器对正字法进行规范化的标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

剥离撇号后的所有字符(包括撇号本身)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

形成从标准分词器生成的 CJK 术语的二元组。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

规范化 CJK 宽度差异。 将全角 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

从首字母缩略词中删除英语所有格和点。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

从输入标记的前面或背面开始生成给定大小的 n-gram。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

根据 German2 雪球算法的启发式方法对德语字符进行规范化。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

规范化印地语文本以消除拼写变化中的一些差异。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

规范化印度语言文本的 Unicode 表示形式。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

每个传入标记发出两次,一次作为关键字,一次作为非关键字。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

用于英语的高性能 kstem 过滤器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

删除太长或太短的单词。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

限制索引时的令牌数量。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

生成给定大小的 n-gram。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

对波斯语应用规范化。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

为语音匹配创建标记。 看 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

使用 Porter 词干提取算法来转换令牌流。 看 http://tartarus.org/~martin/PorterStemmer

reverse

反转令牌字符串。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

规范可互换的斯堪的纳维亚字符的使用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

折叠斯堪的纳维亚字符 åÅäæÄÆ-a> 和 öÖøØ-o>。 它还歧视使用双元音 aa、ae、ao、oe 和 oo,只留下第一个元音。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

将令牌组合创建为单个令牌。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

规范化 Sorani 文本的 Unicode 表示形式。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

特定于语言的词干筛选器。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

从标记流中删除停用词。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

从标记中修剪前导和尾随空格。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

将项截断为特定长度。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

过滤掉与前一个标记具有相同文本的标记。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

将单词拆分为子词,并对子词组执行可选转换。

TruncateTokenFilter

将项截断为特定长度。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌筛选器类型的 URI 片段。

length

integer (int32)

maximum: 300
300

将截断的术语长度。 默认值和最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UaxUrlEmailTokenizer

将 url 和电子邮件标记为一个标记。 此分词器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定分词器类型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 长度超过最大长度的令牌将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分词器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UniqueTokenFilter

过滤掉与前一个标记具有相同文本的标记。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyOnSamePosition

boolean

False

指示是否仅删除同一位置的重复项的值。 默认值为 false。

VectorEncodingFormat

用于解释向量字段内容的编码格式。

说明
packedBit

编码格式表示打包到更宽数据类型的位。

VectorSearch

包含与矢量搜索相关的配置选项。

名称 类型 说明
algorithms VectorSearchAlgorithmConfiguration[]:

包含特定于索引或查询期间使用的算法的配置选项。

compressions VectorSearchCompressionConfiguration[]:

包含特定于索引或查询期间使用的压缩方法的配置选项。

profiles

VectorSearchProfile[]

定义要与矢量搜索一起使用的配置组合。

vectorizers VectorSearchVectorizer[]:

包含有关如何矢量化文本矢量查询的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

说明
hnsw

HNSW(Hierarchical Navigable Small World),一种近似最近邻算法。

exhaustiveKnn

详尽的 KNN 算法,将执行暴力搜索。

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。

说明
cosine

测量向量之间的角度以量化它们的相似性,而不考虑大小。 角度越小,相似度越近。

euclidean

计算多维空间中向量之间的直线距离。 距离越小,相似度越近。

dotProduct

计算元素乘积的总和,以衡量对齐和大小相似性。 越大、越积极,相似度越接近。

hamming

仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越接近。

VectorSearchCompressionKind

用于索引和查询的压缩方法。

说明
scalarQuantization

标量量化,一种压缩方法。 在标量量化中,通过使用一组减少的量化值离散化和表示向量的每个分量,将原始向量值压缩为更窄的类型,从而减小整体数据大小。

binaryQuantization

二进制量化,一种压缩方法。 在二进制量化中,通过使用二进制值离散化和表示向量的每个分量,将原始向量值压缩为较窄的二进制类型,从而减小整体数据大小。

VectorSearchCompressionRescoreStorageMethod

用于重新评分和内部索引作的原始全精度向量的存储方法。

说明
preserveOriginals

此选项保留原始全精度向量。 选择此选项可获得最大的灵活性和最高质量的压缩搜索结果。 这会消耗更多存储空间,但允许重新评分和过采样。

discardOriginals

此选项丢弃原始全精度向量。 选择此选项可最大限度地节省存储空间。 由于此选项不允许重新评分和过采样,因此通常会导致质量轻微到中度下降。

VectorSearchCompressionTargetDataType

压缩向量值的量化数据类型。

说明
int8

VectorSearchProfile

定义要与矢量搜索一起使用的配置组合。

名称 类型 说明
algorithm

string

指定算法和可选参数的矢量搜索算法配置的名称。

compression

string

指定压缩方法和可选参数的压缩方法配置的名称。

name

string

要与此特定向量搜索配置文件关联的名称。

vectorizer

string

配置为用于矢量搜索的矢量化的名称。

VectorSearchVectorizerKind

查询时要使用的矢量化方法。

说明
azureOpenAI

在查询时使用 Azure OpenAI 资源生成嵌入。

customWebApi

在查询时使用自定义 Web 终结点生成嵌入。

WebApiParameters

指定用于连接到用户定义矢量化器的属性。

名称 类型 说明
authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。 如果提供了 authResourceId 但未指定,则使用系统分配的托管标识。 在更新索引器时,如果未指定标识,则该值保持不变。 如果设置为“none”,则清除此属性的值。

authResourceId

string

适用于连接到 Azure 函数中的外部代码或提供转换的其他应用程序中的自定义终结点。 此值应是向 Azure Active Directory 注册时为函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,并将此值用作创建访问令牌范围的资源 ID。

httpHeaders

object

发出 HTTP 请求所需的标头。

httpMethod

string

HTTP 请求的方法。

timeout

string (duration)

请求的所需超时。 默认值为 30 秒。

uri

string (uri)

提供矢量化器的 Web API 的 URI。

WebApiVectorizer

指定用户定义的矢量化器,用于生成查询字符串的矢量嵌入。 外部矢量化器的集成是使用技能组的自定义 Web API 接口实现的。

名称 类型 说明
customWebApiParameters

WebApiParameters

指定用户定义矢量化器的属性。

kind string:

customWebApi

配置为用于向量搜索的矢量化方法的名称。

name

string

要与此特定矢量化方法关联的名称。

WordDelimiterTokenFilter

将单词拆分为子词,并对子词组执行可选转换。 此令牌过滤器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌筛选器类型的 URI 片段。

catenateAll

boolean

False

指示是否将所有子字部分连接的值。 例如,如果将其设置为 true,则“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。

catenateNumbers

boolean

False

指示是否将连接编号部分的最大运行量的值。 例如,如果将其设置为 true,则“1-2”变为“12”。 默认值为 false。

catenateWords

boolean

False

指示是否将对单词部分的最大运行数进行连接的值。 例如,如果将其设置为 true,则“Azure-Search”将变为“AzureSearch”。 默认值为 false。

generateNumberParts

boolean

True

指示是否生成数字子词的值。 默认值为 true。

generateWordParts

boolean

True

指示是否生成部分词的值。 如果设置,则导致生成部分单词;例如,“AzureSearch”变为“Azure”“Search”。 默认值为 true。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、破折号或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

指示是否保留原始单词并将其添加到子单词列表中的值。 默认值为 false。

protectedWords

string[]

要防止分隔的令牌列表。

splitOnCaseChange

boolean

True

指示是否在 caseChange 上拆分单词的值。 例如,如果将其设置为 true,则“AzureSearch”将变为“Azure”“Search”。 默认值为 true。

splitOnNumerics

boolean

True

指示是否对数字进行拆分的值。 例如,如果将其设置为 true,则“Azure1Search”将变为“Azure”“1”Search“。 默认值为 true。

stemEnglishPossessive

boolean

True

指示是否删除每个子词的尾随“'s”的值。 默认值为 true。