LuceneStandardTokenizer interface
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。
属性
| max |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 默认值:255。 |
| name | tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| odatatype | 多态鉴别器 |
属性详细信息
maxTokenLength
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 默认值:255。
maxTokenLength?: number
属性值
number
name
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。
name: string
属性值
string
odatatype
多态鉴别器
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
属性值
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"