PatternTokenizer interface
使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
属性
| flags | 正则表达式标志。 可能的值包括:“CANON_EQ”、“CASE_INSENSITIVE”、“COMMENTS”、“DOTALL”、“LITERAL”、“MULTILINE”、“UNICODE_CASE”、“UNIX_LINES” |
| group | 正则表达式模式中匹配组的从零开始的序号,用于提取到令牌中。 如果要使用整个模式将输入拆分为标记,而不考虑匹配组,请使用 -1。 默认值为 -1。 默认值:-1。 |
| name | tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| odatatype | 多态鉴别器 |
| pattern | 匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个空格字符的表达式。 默认值: |
属性详细信息
flags
正则表达式标志。 可能的值包括:“CANON_EQ”、“CASE_INSENSITIVE”、“COMMENTS”、“DOTALL”、“LITERAL”、“MULTILINE”、“UNICODE_CASE”、“UNIX_LINES”
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
属性值
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
正则表达式模式中匹配组的从零开始的序号,用于提取到令牌中。 如果要使用整个模式将输入拆分为标记,而不考虑匹配组,请使用 -1。 默认值为 -1。 默认值:-1。
group?: number
属性值
number
name
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。
name: string
属性值
string
odatatype
多态鉴别器
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
属性值
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个空格字符的表达式。 默认值:\W+。
pattern?: string
属性值
string