LexicalTokenizerName type
定义 LexicalTokenizerName 的值。
<xref:KnownLexicalTokenizerName> 可与 LexicalTokenizerName 互换使用,此枚举包含服务支持的已知值。
服务支持的已知值
经典:适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram:将输入从边缘切入给定大小的 n 元语法。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2:以单个令牌的形式发出整个输入。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
字母:以非字母分隔文本。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
小写:将文本除以非字母并将它们转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer:使用特定于语言的规则划分文本。
microsoft_language_stemming_tokenizer:使用特定于语言的规则划分文本,并将单词减少到其基本形式。
nGram:将输入切分为给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2:用于类似路径的层次结构的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
模式:使用正则表达式模式匹配构造不同令牌的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2:标准 Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email:将 URL 和电子邮件作为一个令牌进行标记化。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
空格:在空格处划分文本。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html
type LexicalTokenizerName = string