你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Indexes - Analyze

显示分析器如何将文本分解为标记。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI 参数

名称 必需 类型 说明
endpoint
path True

string

搜索服务的终结点 URL。

indexName
path True

string

要测试分析器的索引的名称。

api-version
query True

string

客户端 API 版本。

请求头

名称 必需 类型 说明
x-ms-client-request-id

string (uuid)

随请求一起发送的跟踪 ID,以帮助调试。

请求正文

名称 必需 类型 说明
text True

string

要分解为标记的文本。

analyzer

LexicalAnalyzerName

用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定分词器。 分词器和分析器参数是互斥的。

charFilters

CharFilterName[]

断开给定文本时要使用的字符过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。

normalizer

LexicalNormalizerName

用于规范化给定文本的规范化器的名称。

tokenFilters

TokenFilterName[]

中断给定文本时要使用的令牌过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。

tokenizer

LexicalTokenizerName

用于中断给定文本的分词器的名称。 如果未指定此参数,则必须改为指定分析器。 分词器和分析器参数是互斥的。

响应

名称 类型 说明
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

错误响应。

示例

SearchServiceIndexAnalyze

示例请求

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

示例响应

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定义

名称 说明
AnalyzedTokenInfo

有关分析器返回的令牌的信息。

AnalyzeRequest

指定一些文本和分析组件,用于将该文本分解为标记。

AnalyzeResult

对文本测试分析器的结果。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

ErrorAdditionalInfo

资源管理错误附加信息。

ErrorDetail

错误详细信息。

ErrorResponse

错误响应

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

AnalyzedTokenInfo

有关分析器返回的令牌的信息。

名称 类型 说明
endOffset

integer (int32)

输入文本中标记的最后一个字符的索引。

position

integer (int32)

标记在输入文本中相对于其他标记的位置。 输入文本中的第一个标记的位置为 0,下一个标记的位置为 1,依此类推。 根据所使用的分析器,某些标记可能具有相同的位置,例如,如果它们是彼此的同义词。

startOffset

integer (int32)

输入文本中标记的第一个字符的索引。

token

string

分析器返回的令牌。

AnalyzeRequest

指定一些文本和分析组件,用于将该文本分解为标记。

名称 类型 说明
analyzer

LexicalAnalyzerName

用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定分词器。 分词器和分析器参数是互斥的。

charFilters

CharFilterName[]

断开给定文本时要使用的字符过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。

normalizer

LexicalNormalizerName

用于规范化给定文本的规范化器的名称。

text

string

要分解为标记的文本。

tokenFilters

TokenFilterName[]

中断给定文本时要使用的令牌过滤器的可选列表。 只有在使用分词器参数时才能设置此参数。

tokenizer

LexicalTokenizerName

用于中断给定文本的分词器的名称。 如果未指定此参数,则必须改为指定分析器。 分词器和分析器参数是互斥的。

AnalyzeResult

对文本测试分析器的结果。

名称 类型 说明
tokens

AnalyzedTokenInfo[]

请求中指定的分析器返回的令牌列表。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

说明
html_strip

尝试剥离 HTML 构造的字符过滤器。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

资源管理错误附加信息。

名称 类型 说明
info

object

其他信息。

type

string

其他信息类型。

ErrorDetail

错误详细信息。

名称 类型 说明
additionalInfo

ErrorAdditionalInfo[]

错误附加信息。

code

string

错误代码。

details

ErrorDetail[]

错误详细信息。

message

string

错误消息。

target

string

错误目标。

ErrorResponse

错误响应

名称 类型 说明
error

ErrorDetail

错误对象。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

说明
ar.microsoft

Microsoft 阿拉伯语分析器。

ar.lucene

阿拉伯语 Lucene 分析仪。

hy.lucene

亚美尼亚语的 Lucene 分析仪。

bn.microsoft

适用于孟加拉语的 Microsoft 分析器。

eu.lucene

用于巴斯克语的 Lucene 分析仪。

bg.microsoft

保加利亚语的 Microsoft 分析器。

bg.lucene

保加利亚语的 Lucene 分析仪。

ca.microsoft

适用于加泰罗尼亚语的 Microsoft 分析器。

ca.lucene

用于加泰罗尼亚语的 Lucene 分析仪。

zh-Hans.microsoft

Microsoft 中文分析器(简体)。

zh-Hans.lucene

Lucene 中文分析仪(简体)。

zh-Hant.microsoft

Microsoft 中文分析器(繁体)。

zh-Hant.lucene

Lucene 中文分析仪(繁体)。

hr.microsoft

克罗地亚语的 Microsoft 分析器。

cs.microsoft

捷克语的 Microsoft 分析器。

cs.lucene

捷克的 Lucene 分析仪。

da.microsoft

丹麦语的 Microsoft 分析器。

da.lucene

丹麦语 Lucene 分析仪。

nl.microsoft

适用于荷兰语的 Microsoft 分析器。

nl.lucene

荷兰语的 Lucene 分析仪。

en.microsoft

Microsoft Analyzer for English。

en.lucene

Lucene 分析仪,用于英语。

et.microsoft

爱沙尼亚语的 Microsoft 分析器。

fi.microsoft

芬兰语的 Microsoft 分析器。

fi.lucene

芬兰语的 Lucene 分析仪。

fr.microsoft

法语的 Microsoft 分析器。

fr.lucene

法语 Lucene 分析仪。

gl.lucene

用于加利西亚语的 Lucene 分析仪。

de.microsoft

德语的 Microsoft 分析器。

de.lucene

德语 Lucene 分析仪。

el.microsoft

希腊语的 Microsoft 分析器。

el.lucene

希腊语 Lucene 分析仪。

gu.microsoft

古吉拉特语的 Microsoft 分析器。

he.microsoft

希伯来语的 Microsoft 分析器。

hi.microsoft

印地语的 Microsoft 分析器。

hi.lucene

印地语 Lucene 分析仪。

hu.microsoft

匈牙利语的 Microsoft 分析器。

hu.lucene

匈牙利语的 Lucene 分析仪。

is.microsoft

冰岛语的 Microsoft 分析器。

id.microsoft

Microsoft 印度尼西亚语分析器 (印尼语)。

id.lucene

印度尼西亚语的 Lucene 分析仪。

ga.lucene

爱尔兰语 Lucene 分析仪。

it.microsoft

意大利语的 Microsoft 分析器。

it.lucene

意大利语 Lucene 分析仪。

ja.microsoft

日语的 Microsoft 分析器。

ja.lucene

日语 Lucene 分析仪。

kn.microsoft

适用于卡纳达语的 Microsoft 分析器。

ko.microsoft

韩语的 Microsoft 分析器。

ko.lucene

韩语Lucene分析仪。

lv.microsoft

Microsoft Analyzer for Latvian。

lv.lucene

拉脱维亚的 Lucene 分析仪。

lt.microsoft

立陶宛语的 Microsoft 分析器。

ml.microsoft

适用于马拉雅拉姆语的 Microsoft 分析器。

ms.microsoft

Microsoft 马来语分析器(拉丁语)。

mr.microsoft

Microsoft 马拉地语分析器。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål)。

no.lucene

挪威的 Lucene 分析仪。

fa.lucene

用于波斯语的 Lucene 分析仪。

pl.microsoft

适用于波兰语的 Microsoft 分析器。

pl.lucene

用于波兰语的 Lucene 分析仪。

pt-BR.microsoft

葡萄牙语(巴西)的 Microsoft 分析器。

pt-BR.lucene

葡萄牙语(巴西)的 Lucene 分析仪。

pt-PT.microsoft

Microsoft Analyzer for Portuguese (葡萄牙) 。

pt-PT.lucene

葡萄牙语(葡萄牙)的 Lucene 分析仪。

pa.microsoft

旁遮普语的 Microsoft 分析器。

ro.microsoft

罗马尼亚语的 Microsoft 分析器。

ro.lucene

罗马尼亚语的 Lucene 分析仪。

ru.microsoft

俄语的 Microsoft 分析器。

ru.lucene

俄语 Lucene 分析仪。

sr-cyrillic.microsoft

塞尔维亚语(西里尔文)的 Microsoft 分析器。

sr-latin.microsoft

Microsoft 塞尔维亚语分析器(拉丁语)。

sk.microsoft

Microsoft Analyzer for Slovak。

sl.microsoft

Microsoft 分析器 for Slovenian。

es.microsoft

西班牙语的 Microsoft 分析器。

es.lucene

西班牙语的 Lucene 分析仪。

sv.microsoft

瑞典语的 Microsoft 分析器。

sv.lucene

瑞典语 Lucene 分析仪。

ta.microsoft

泰米尔语的 Microsoft 分析器。

te.microsoft

泰卢固语的 Microsoft 分析器。

th.microsoft

适用于泰语的 Microsoft 分析器。

th.lucene

泰式 Lucene 分析仪。

tr.microsoft

土耳其语的 Microsoft 分析器。

tr.lucene

土耳其语 Lucene 分析仪。

uk.microsoft

乌克兰语的 Microsoft 分析器。

ur.microsoft

乌尔都语的 Microsoft 分析器。

vi.microsoft

Microsoft 越南语分析器。

standard.lucene

标准 Lucene 分析仪。

standardasciifolding.lucene

标准 ASCII 折叠 Lucene 分析仪。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据很有用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

通过正则表达式模式灵活地将文本分隔为术语。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

在非字母处划分文本;应用小写和停用词标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

使用空格分词器的分析器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

说明
asciifolding

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

标准归一化器,由小写和 asciifolding 组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

说明
classic

基于语法的分词器,适用于处理大多数欧洲语言文档。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

将来自边的输入标记为给定大小的 n 克。 看 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

将整个输入作为单个标记发出。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

在非字母处划分文本。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

将文本分隔为非字母并将它们转换为小写。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

使用特定于语言的规则划分文本。

microsoft_language_stemming_tokenizer

使用特定于语言的规则划分文本,并将单词简化为基本形式。

nGram

将输入标记为给定大小的 n 克。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

用于类似路径的层次结构的分词器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

使用正则表达式模式匹配来构造不同标记的标记器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

标准Lucene分析仪;由标准分词器、小写过滤器和停止过滤器组成。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

将 url 和电子邮件标记为一个标记。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

在空格处划分文本。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

说明
arabic_normalization

应用阿拉伯语规范化器对正字法进行规范化的标记筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

剥离撇号后的所有字符(包括撇号本身)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中不存在的字母、数字和符号 Unicode 字符转换为其 ASCII 等效字符(如果存在此类等效字符)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

形成从标准分词器生成的 CJK 术语的二元组。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

规范化 CJK 宽度差异。 将全角 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

从首字母缩略词中删除英语所有格和点。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

在索引时为频繁出现的术语构造二元组。 单个术语也仍然被索引,双元组叠加。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

从输入标记的前面或背面开始生成给定大小的 n-gram。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

删除省略。 例如,“l'avion”(飞机)将转换为“avion”(飞机)。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

根据 German2 雪球算法的启发式方法对德语字符进行规范化。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

规范化印地语文本以消除拼写变化中的一些差异。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

规范化印度语言文本的 Unicode 表示形式。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

每个传入标记发出两次,一次作为关键字,一次作为非关键字。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

用于英语的高性能 kstem 过滤器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

删除太长或太短的单词。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

限制索引时的令牌数量。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

将标记文本规范化为小写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

生成给定大小的 n-gram。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

对波斯语应用规范化。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

为语音匹配创建标记。 看 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

使用 Porter 词干提取算法来转换令牌流。 看 http://tartarus.org/~martin/PorterStemmer

reverse

反转令牌字符串。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

规范可互换的斯堪的纳维亚字符的使用。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

折叠斯堪的纳维亚字符 åÅäæÄÆ-a> 和 öÖøØ-o>。 它还歧视使用双元音 aa、ae、ao、oe 和 oo,只留下第一个元音。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

将令牌组合创建为单个令牌。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

规范化 Sorani 文本的 Unicode 表示形式。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

特定于语言的词干筛选器。 看 https://free.blessedness.top/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

从标记流中删除停用词。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

从标记中修剪前导和尾随空格。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

将项截断为特定长度。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

过滤掉与前一个标记具有相同文本的标记。 看 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

将标记文本规范化为大写。 看 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

将单词拆分为子词,并对子词组执行可选转换。