Indexes - Analyze
显示分析器如何将文本分解为标记。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
URI 参数
| 名称 | 在 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
|
index
|
path | True |
string |
要测试分析器的索引的名称。 |
|
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
随请求一起发送的跟踪 ID,以帮助调试。 |
请求正文
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| text | True |
string |
要分解为标记的文本。 |
| analyzer |
用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定分词器。 分词器和分析器参数是互斥的。 |
||
| charFilters |
断开给定文本时要使用的字符过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。 |
||
| normalizer |
用于规范化给定文本的规范化器的名称。 |
||
| tokenFilters |
中断给定文本时要使用的令牌过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。 |
||
| tokenizer |
用于中断给定文本的分词器的名称。 如果未指定此参数,则必须改为指定分析器。 分词器和分析器参数是互斥的。 |
响应
| 名称 | 类型 | 说明 |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
错误响应。 |
示例
SearchServiceIndexAnalyze
示例请求
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
示例响应
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定义
| 名称 | 说明 |
|---|---|
|
Analyzed |
有关分析器返回的令牌的信息。 |
|
Analyze |
指定一些文本和分析组件,用于将该文本分解为标记。 |
|
Analyze |
对文本测试分析器的结果。 |
|
Char |
定义搜索引擎支持的所有字符过滤器的名称。 |
|
Error |
资源管理错误附加信息。 |
|
Error |
错误详细信息。 |
|
Error |
错误响应 |
|
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
|
Lexical |
定义搜索引擎支持的所有文本规范化器的名称。 |
|
Lexical |
定义搜索引擎支持的所有分词器的名称。 |
|
Token |
定义搜索引擎支持的所有令牌过滤器的名称。 |
AnalyzedTokenInfo
有关分析器返回的令牌的信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| endOffset |
integer (int32) |
输入文本中标记的最后一个字符的索引。 |
| position |
integer (int32) |
标记在输入文本中相对于其他标记的位置。 输入文本中的第一个标记的位置为 0,下一个标记的位置为 1,依此类推。 根据所使用的分析器,某些标记可能具有相同的位置,例如,如果它们是彼此的同义词。 |
| startOffset |
integer (int32) |
输入文本中标记的第一个字符的索引。 |
| token |
string |
分析器返回的令牌。 |
AnalyzeRequest
指定一些文本和分析组件,用于将该文本分解为标记。
| 名称 | 类型 | 说明 |
|---|---|---|
| analyzer |
用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定分词器。 分词器和分析器参数是互斥的。 |
|
| charFilters |
断开给定文本时要使用的字符过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。 |
|
| normalizer |
用于规范化给定文本的规范化器的名称。 |
|
| text |
string |
要分解为标记的文本。 |
| tokenFilters |
中断给定文本时要使用的令牌过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。 |
|
| tokenizer |
用于中断给定文本的分词器的名称。 如果未指定此参数,则必须改为指定分析器。 分词器和分析器参数是互斥的。 |
AnalyzeResult
对文本测试分析器的结果。
| 名称 | 类型 | 说明 |
|---|---|---|
| tokens |
请求中指定的分析器返回的令牌列表。 |
CharFilterName
定义搜索引擎支持的所有字符过滤器的名称。
| 值 | 说明 |
|---|---|
| html_strip |
尝试剥离 HTML 构造的字符过滤器。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
资源管理错误附加信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| info |
object |
其他信息。 |
| type |
string |
其他信息类型。 |
ErrorDetail
错误详细信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| additionalInfo |
错误附加信息。 |
|
| code |
string |
错误代码。 |
| details |
错误详细信息。 |
|
| message |
string |
错误消息。 |
| target |
string |
错误目标。 |
ErrorResponse
错误响应
| 名称 | 类型 | 说明 |
|---|---|---|
| error |
错误对象。 |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
| 值 | 说明 |
|---|---|
| ar.microsoft |
Microsoft 阿拉伯语分析器。 |
| ar.lucene |
阿拉伯语 Lucene 分析仪。 |
| hy.lucene |
亚美尼亚语的 Lucene 分析仪。 |
| bn.microsoft |
适用于孟加拉语的 Microsoft 分析器。 |
| eu.lucene |
用于巴斯克语的 Lucene 分析仪。 |
| bg.microsoft |
保加利亚语的 Microsoft 分析器。 |
| bg.lucene |
保加利亚语的 Lucene 分析仪。 |
| ca.microsoft |
适用于加泰罗尼亚语的 Microsoft 分析器。 |
| ca.lucene |
用于加泰罗尼亚语的 Lucene 分析仪。 |
| zh-Hans.microsoft |
Microsoft 中文分析器(简体)。 |
| zh-Hans.lucene |
Lucene 中文分析仪(简体)。 |
| zh-Hant.microsoft |
Microsoft 中文分析器(繁体)。 |
| zh-Hant.lucene |
Lucene 中文分析仪(繁体)。 |
| hr.microsoft |
克罗地亚语的 Microsoft 分析器。 |
| cs.microsoft |
捷克语的 Microsoft 分析器。 |
| cs.lucene |
捷克的 Lucene 分析仪。 |
| da.microsoft |
丹麦语的 Microsoft 分析器。 |
| da.lucene |
丹麦语 Lucene 分析仪。 |
| nl.microsoft |
适用于荷兰语的 Microsoft 分析器。 |
| nl.lucene |
荷兰语的 Lucene 分析仪。 |
| en.microsoft |
Microsoft Analyzer for English。 |
| en.lucene |
Lucene 分析仪,用于英语。 |
| et.microsoft |
爱沙尼亚语的 Microsoft 分析器。 |
| fi.microsoft |
芬兰语的 Microsoft 分析器。 |
| fi.lucene |
芬兰语的 Lucene 分析仪。 |
| fr.microsoft |
法语的 Microsoft 分析器。 |
| fr.lucene |
法语 Lucene 分析仪。 |
| gl.lucene |
用于加利西亚语的 Lucene 分析仪。 |
| de.microsoft |
德语的 Microsoft 分析器。 |
| de.lucene |
德语 Lucene 分析仪。 |
| el.microsoft |
希腊语的 Microsoft 分析器。 |
| el.lucene |
希腊语 Lucene 分析仪。 |
| gu.microsoft |
古吉拉特语的 Microsoft 分析器。 |
| he.microsoft |
希伯来语的 Microsoft 分析器。 |
| hi.microsoft |
印地语的 Microsoft 分析器。 |
| hi.lucene |
印地语 Lucene 分析仪。 |
| hu.microsoft |
匈牙利语的 Microsoft 分析器。 |
| hu.lucene |
匈牙利语的 Lucene 分析仪。 |
| is.microsoft |
冰岛语的 Microsoft 分析器。 |
| id.microsoft |
Microsoft 印度尼西亚语分析器 (印尼语)。 |
| id.lucene |
印度尼西亚语的 Lucene 分析仪。 |
| ga.lucene |
爱尔兰语 Lucene 分析仪。 |
| it.microsoft |
意大利语的 Microsoft 分析器。 |
| it.lucene |
意大利语 Lucene 分析仪。 |
| ja.microsoft |
日语的 Microsoft 分析器。 |
| ja.lucene |
日语 Lucene 分析仪。 |
| kn.microsoft |
适用于卡纳达语的 Microsoft 分析器。 |
| ko.microsoft |
韩语的 Microsoft 分析器。 |
| ko.lucene |
韩语Lucene分析仪。 |
| lv.microsoft |
Microsoft Analyzer for Latvian。 |
| lv.lucene |
拉脱维亚的 Lucene 分析仪。 |
| lt.microsoft |
立陶宛语的 Microsoft 分析器。 |
| ml.microsoft |
适用于马拉雅拉姆语的 Microsoft 分析器。 |
| ms.microsoft |
Microsoft 马来语分析器(拉丁语)。 |
| mr.microsoft |
Microsoft 马拉地语分析器。 |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål)。 |
| no.lucene |
挪威的 Lucene 分析仪。 |
| fa.lucene |
用于波斯语的 Lucene 分析仪。 |
| pl.microsoft |
适用于波兰语的 Microsoft 分析器。 |
| pl.lucene |
用于波兰语的 Lucene 分析仪。 |
| pt-BR.microsoft |
葡萄牙语(巴西)的 Microsoft 分析器。 |
| pt-BR.lucene |
葡萄牙语(巴西)的 Lucene 分析仪。 |
| pt-PT.microsoft |
Microsoft Analyzer for Portuguese (葡萄牙) 。 |
| pt-PT.lucene |
葡萄牙语(葡萄牙)的 Lucene 分析仪。 |
| pa.microsoft |
旁遮普语的 Microsoft 分析器。 |
| ro.microsoft |
罗马尼亚语的 Microsoft 分析器。 |
| ro.lucene |
罗马尼亚语的 Lucene 分析仪。 |
| ru.microsoft |
俄语的 Microsoft 分析器。 |
| ru.lucene |
俄语 Lucene 分析仪。 |
| sr-cyrillic.microsoft |
塞尔维亚语(西里尔文)的 Microsoft 分析器。 |
| sr-latin.microsoft |
Microsoft 塞尔维亚语分析器(拉丁语)。 |
| sk.microsoft |
Microsoft Analyzer for Slovak。 |
| sl.microsoft |
Microsoft 分析器 for Slovenian。 |
| es.microsoft |
西班牙语的 Microsoft 分析器。 |
| es.lucene |
西班牙语的 Lucene 分析仪。 |
| sv.microsoft |
瑞典语的 Microsoft 分析器。 |
| sv.lucene |
瑞典语 Lucene 分析仪。 |
| ta.microsoft |
泰米尔语的 Microsoft 分析器。 |
| te.microsoft |
泰卢固语的 Microsoft 分析器。 |
| th.microsoft |
适用于泰语的 Microsoft 分析器。 |
| th.lucene |
泰式 Lucene 分析仪。 |
| tr.microsoft |
土耳其语的 Microsoft 分析器。 |
| tr.lucene |
土耳其语 Lucene 分析仪。 |
| uk.microsoft |
乌克兰语的 Microsoft 分析器。 |
| ur.microsoft |
乌尔都语的 Microsoft 分析器。 |
| vi.microsoft |
Microsoft 越南语分析器。 |
| standard.lucene |
标准 Lucene 分析仪。 |
| standardasciifolding.lucene |
标准 ASCII 折叠 Lucene 分析仪。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据很有用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
通过正则表达式模式灵活地将文本分隔为术语。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
在非字母处划分文本;应用小写和停用词标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
使用空格分词器的分析器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
定义搜索引擎支持的所有文本规范化器的名称。
| 值 | 说明 |
|---|---|
| asciifolding |
将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
标准归一化器,由小写和 asciifolding 组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定义搜索引擎支持的所有分词器的名称。
TokenFilterName
定义搜索引擎支持的所有令牌过滤器的名称。