你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Indexes - Analyze

服务:: Search Service

API 版本:: 2025-09-01

显示分析器如何将文本分解为标记。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI 参数

名称	在	必需	类型	说明
endpoint	path	True	string	搜索服务的终结点 URL。
indexName	path	True	string	要测试分析器的索引的名称。
api-version	query	True	string	客户端 API 版本。

请求头

名称	必需	类型	说明
x-ms-client-request-id		string (uuid)	随请求一起发送的跟踪 ID，以帮助调试。

请求正文

名称	必需	类型	说明
text	True	string	要分解为标记的文本。
analyzer		LexicalAnalyzerName	用于中断给定文本的分析器的名称。如果未指定此参数，则必须改为指定分词器。分词器和分析器参数是互斥的。
charFilters		CharFilterName[]	断开给定文本时要使用的字符过滤器的可选列表。只有在使用分词器参数时才能设置此参数。
normalizer		LexicalNormalizerName	用于规范化给定文本的规范化器的名称。
tokenFilters		TokenFilterName[]	中断给定文本时要使用的令牌过滤器的可选列表。只有在使用分词器参数时才能设置此参数。
tokenizer		LexicalTokenizerName	用于中断给定文本的分词器的名称。如果未指定此参数，则必须改为指定分析器。分词器和分析器参数是互斥的。

响应

名称	类型	说明
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	错误响应。

示例

SearchServiceIndexAnalyze

示例请求

HTTP

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

示例响应

状态代码:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定义

名称	说明
AnalyzedTokenInfo	有关分析器返回的令牌的信息。
AnalyzeRequest	指定一些文本和分析组件，用于将该文本分解为标记。
AnalyzeResult	对文本测试分析器的结果。
CharFilterName	定义搜索引擎支持的所有字符过滤器的名称。
ErrorAdditionalInfo	资源管理错误附加信息。
ErrorDetail	错误详细信息。
ErrorResponse	错误响应
LexicalAnalyzerName	定义搜索引擎支持的所有文本分析器的名称。
LexicalNormalizerName	定义搜索引擎支持的所有文本规范化器的名称。
LexicalTokenizerName	定义搜索引擎支持的所有分词器的名称。
TokenFilterName	定义搜索引擎支持的所有令牌过滤器的名称。

AnalyzedTokenInfo

Object

有关分析器返回的令牌的信息。

名称	类型	说明
endOffset	integer (int32)	输入文本中标记的最后一个字符的索引。
position	integer (int32)	标记在输入文本中相对于其他标记的位置。输入文本中的第一个标记的位置为 0，下一个标记的位置为 1，依此类推。根据所使用的分析器，某些标记可能具有相同的位置，例如，如果它们是彼此的同义词。
startOffset	integer (int32)	输入文本中标记的第一个字符的索引。
token	string	分析器返回的令牌。

AnalyzeRequest

Object

指定一些文本和分析组件，用于将该文本分解为标记。

名称	类型	说明
analyzer	LexicalAnalyzerName	用于中断给定文本的分析器的名称。如果未指定此参数，则必须改为指定分词器。分词器和分析器参数是互斥的。
charFilters	CharFilterName[]	断开给定文本时要使用的字符过滤器的可选列表。只有在使用分词器参数时才能设置此参数。
normalizer	LexicalNormalizerName	用于规范化给定文本的规范化器的名称。
text	string	要分解为标记的文本。
tokenFilters	TokenFilterName[]	中断给定文本时要使用的令牌过滤器的可选列表。只有在使用分词器参数时才能设置此参数。
tokenizer	LexicalTokenizerName	用于中断给定文本的分词器的名称。如果未指定此参数，则必须改为指定分析器。分词器和分析器参数是互斥的。

AnalyzeResult

Object

对文本测试分析器的结果。

名称	类型	说明
tokens	AnalyzedTokenInfo[]	请求中指定的分析器返回的令牌列表。

CharFilterName

枚举

定义搜索引擎支持的所有字符过滤器的名称。

值	说明
html_strip	尝试剥离 HTML 构造的字符过滤器。看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Object

资源管理错误附加信息。

名称	类型	说明
info	object	其他信息。
type	string	其他信息类型。

ErrorDetail

Object

错误详细信息。

名称	类型	说明
additionalInfo	ErrorAdditionalInfo[]	错误附加信息。
code	string	错误代码。
details	ErrorDetail[]	错误详细信息。
message	string	错误消息。
target	string	错误目标。

ErrorResponse

Object

错误响应

名称	类型	说明
error	ErrorDetail	错误对象。

LexicalAnalyzerName

枚举

定义搜索引擎支持的所有文本分析器的名称。

值	说明
ar.microsoft	Microsoft 阿拉伯语分析器。
ar.lucene	阿拉伯语 Lucene 分析仪。
hy.lucene	亚美尼亚语的 Lucene 分析仪。
bn.microsoft	适用于孟加拉语的 Microsoft 分析器。
eu.lucene	用于巴斯克语的 Lucene 分析仪。
bg.microsoft	保加利亚语的 Microsoft 分析器。
bg.lucene	保加利亚语的 Lucene 分析仪。
ca.microsoft	适用于加泰罗尼亚语的 Microsoft 分析器。
ca.lucene	用于加泰罗尼亚语的 Lucene 分析仪。
zh-Hans.microsoft	Microsoft 中文分析器（简体）。
zh-Hans.lucene	Lucene 中文分析仪（简体）。
zh-Hant.microsoft	Microsoft 中文分析器（繁体）。
zh-Hant.lucene	Lucene 中文分析仪（繁体）。
hr.microsoft	克罗地亚语的 Microsoft 分析器。
cs.microsoft	捷克语的 Microsoft 分析器。
cs.lucene	捷克的 Lucene 分析仪。
da.microsoft	丹麦语的 Microsoft 分析器。
da.lucene	丹麦语 Lucene 分析仪。
nl.microsoft	适用于荷兰语的 Microsoft 分析器。
nl.lucene	荷兰语的 Lucene 分析仪。
en.microsoft	Microsoft Analyzer for English。
en.lucene	Lucene 分析仪，用于英语。
et.microsoft	爱沙尼亚语的 Microsoft 分析器。
fi.microsoft	芬兰语的 Microsoft 分析器。
fi.lucene	芬兰语的 Lucene 分析仪。
fr.microsoft	法语的 Microsoft 分析器。
fr.lucene	法语 Lucene 分析仪。
gl.lucene	用于加利西亚语的 Lucene 分析仪。
de.microsoft	德语的 Microsoft 分析器。
de.lucene	德语 Lucene 分析仪。
el.microsoft	希腊语的 Microsoft 分析器。
el.lucene	希腊语 Lucene 分析仪。
gu.microsoft	古吉拉特语的 Microsoft 分析器。
he.microsoft	希伯来语的 Microsoft 分析器。
hi.microsoft	印地语的 Microsoft 分析器。
hi.lucene	印地语 Lucene 分析仪。
hu.microsoft	匈牙利语的 Microsoft 分析器。
hu.lucene	匈牙利语的 Lucene 分析仪。
is.microsoft	冰岛语的 Microsoft 分析器。
id.microsoft	Microsoft 印度尼西亚语分析器（印尼语）。
id.lucene	印度尼西亚语的 Lucene 分析仪。
ga.lucene	爱尔兰语 Lucene 分析仪。
it.microsoft	意大利语的 Microsoft 分析器。
it.lucene	意大利语 Lucene 分析仪。
ja.microsoft	日语的 Microsoft 分析器。
ja.lucene	日语 Lucene 分析仪。
kn.microsoft	适用于卡纳达语的 Microsoft 分析器。
ko.microsoft	韩语的 Microsoft 分析器。
ko.lucene	韩语Lucene分析仪。
lv.microsoft	Microsoft Analyzer for Latvian。
lv.lucene	拉脱维亚的 Lucene 分析仪。
lt.microsoft	立陶宛语的 Microsoft 分析器。
ml.microsoft	适用于马拉雅拉姆语的 Microsoft 分析器。
ms.microsoft	Microsoft 马来语分析器（拉丁语）。
mr.microsoft	Microsoft 马拉地语分析器。
nb.microsoft	Microsoft analyzer for Norwegian （Bokmål）。
no.lucene	挪威的 Lucene 分析仪。
fa.lucene	用于波斯语的 Lucene 分析仪。
pl.microsoft	适用于波兰语的 Microsoft 分析器。
pl.lucene	用于波兰语的 Lucene 分析仪。
pt-BR.microsoft	葡萄牙语（巴西）的 Microsoft 分析器。
pt-BR.lucene	葡萄牙语（巴西）的 Lucene 分析仪。
pt-PT.microsoft	Microsoft Analyzer for Portuguese （葡萄牙）。
pt-PT.lucene	葡萄牙语（葡萄牙）的 Lucene 分析仪。
pa.microsoft	旁遮普语的 Microsoft 分析器。
ro.microsoft	罗马尼亚语的 Microsoft 分析器。
ro.lucene	罗马尼亚语的 Lucene 分析仪。
ru.microsoft	俄语的 Microsoft 分析器。
ru.lucene	俄语 Lucene 分析仪。
sr-cyrillic.microsoft	塞尔维亚语（西里尔文）的 Microsoft 分析器。
sr-latin.microsoft	Microsoft 塞尔维亚语分析器（拉丁语）。
sk.microsoft	Microsoft Analyzer for Slovak。
sl.microsoft	Microsoft 分析器 for Slovenian。
es.microsoft	西班牙语的 Microsoft 分析器。
es.lucene	西班牙语的 Lucene 分析仪。
sv.microsoft	瑞典语的 Microsoft 分析器。
sv.lucene	瑞典语 Lucene 分析仪。
ta.microsoft	泰米尔语的 Microsoft 分析器。
te.microsoft	泰卢固语的 Microsoft 分析器。
th.microsoft	适用于泰语的 Microsoft 分析器。
th.lucene	泰式 Lucene 分析仪。
tr.microsoft	土耳其语的 Microsoft 分析器。
tr.lucene	土耳其语 Lucene 分析仪。
uk.microsoft	乌克兰语的 Microsoft 分析器。
ur.microsoft	乌尔都语的 Microsoft 分析器。
vi.microsoft	Microsoft 越南语分析器。
standard.lucene	标准 Lucene 分析仪。
standardasciifolding.lucene	标准 ASCII 折叠 Lucene 分析仪。看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
keyword	将字段的全部内容视为单个标记。这对于邮政编码、ID 和某些产品名称等数据很有用。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
pattern	通过正则表达式模式灵活地将文本分隔为术语。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
simple	将文本分隔为非字母并将它们转换为小写。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
stop	在非字母处划分文本;应用小写和停用词标记筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
whitespace	使用空格分词器的分析器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

枚举

定义搜索引擎支持的所有文本规范化器的名称。

值	说明
asciifolding	将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	将标记文本规范化为小写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	标准归一化器，由小写和 asciifolding 组成。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	将标记文本规范化为大写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

枚举

定义搜索引擎支持的所有分词器的名称。

值	说明
classic	基于语法的分词器，适用于处理大多数欧洲语言文档。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	将来自边的输入标记为给定大小的 n 克。看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	将整个输入作为单个标记发出。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	在非字母处划分文本。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	将文本分隔为非字母并将它们转换为小写。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer	使用特定于语言的规则划分文本。
microsoft_language_stemming_tokenizer	使用特定于语言的规则划分文本，并将单词简化为基本形式。
nGram	将输入标记为给定大小的 n 克。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	用于类似路径的层次结构的分词器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	使用正则表达式模式匹配来构造不同标记的标记器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	标准Lucene分析仪;由标准分词器、小写过滤器和停止过滤器组成。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	将 url 和电子邮件标记为一个标记。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	在空格处划分文本。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

枚举

定义搜索引擎支持的所有令牌过滤器的名称。

值	说明
arabic_normalization	应用阿拉伯语规范化器对正字法进行规范化的标记筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
apostrophe	剥离撇号后的所有字符（包括撇号本身）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
asciifolding	将前 127 个 ASCII 字符（“基本拉丁语”Unicode 块）中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符（如果存在此类等效字符）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	形成从标准分词器生成的 CJK 术语的二元组。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	规范化 CJK 宽度差异。将全角 ASCII 变体折叠为等效的基本拉丁语，将半角片假名变体折叠为等效的假名。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	从首字母缩略词中删除英语所有格和点。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	在索引时为频繁出现的术语构造二元组。单个术语也仍然被索引，双元组叠加。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	从输入标记的前面或背面开始生成给定大小的 n-gram。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	删除省略。例如，“l'avion”（飞机）将转换为“avion”（飞机）。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	根据 German2 雪球算法的启发式方法对德语字符进行规范化。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	规范化印地语文本以消除拼写变化中的一些差异。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	规范化印度语言文本的 Unicode 表示形式。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	每个传入标记发出两次，一次作为关键字，一次作为非关键字。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	用于英语的高性能 kstem 过滤器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	删除太长或太短的单词。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	限制索引时的令牌数量。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	将标记文本规范化为小写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	生成给定大小的 n-gram。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	对波斯语应用规范化。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	为语音匹配创建标记。看 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	使用 Porter 词干提取算法来转换令牌流。看 http://tartarus.org/~martin/PorterStemmer
reverse	反转令牌字符串。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_normalization	规范可互换的斯堪的纳维亚字符的使用。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
scandinavian_folding	折叠斯堪的纳维亚字符 åÅäæÄÆ-a> 和 öÖøØ-o>。它还歧视使用双元音 aa、ae、ao、oe 和 oo，只留下第一个元音。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
shingle	将令牌组合创建为单个令牌。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	使用 Snowball 生成的词干分析器对单词进行词干的筛选器。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	规范化 Sorani 文本的 Unicode 表示形式。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	特定于语言的词干筛选器。看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	从标记流中删除停用词。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	从标记中修剪前导和尾随空格。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	将项截断为特定长度。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	过滤掉与前一个标记具有相同文本的标记。看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	将标记文本规范化为大写。看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	将单词拆分为子词，并对子词组执行可选转换。

通过

Indexes - Analyze

URI 参数

请求头

请求正文

响应

示例

SearchServiceIndexAnalyze

示例请求

示例响应

定义

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

LexicalAnalyzerName

LexicalNormalizerName

LexicalTokenizerName

TokenFilterName