了解用于知识挖掘的数据提取
知识挖掘解决方案提供从大量常为非结构化的数据的自动信息提取。 基础知识挖掘解决方案是在响应用户查询时从大型数据集检索相关信息的过程。 AI 提供支持的信息提取支持对搜索索引中可搜索的内容的改进。
在 AI 支持的提取信息以进行搜索的过程中,内容首先通过文档破解移动。 文档破解描述打开文档格式(如 PDF),以将内容提取为 ASCII 文本进行分析和编制索引。
然后,这些内容会经过AI丰富,从而在原始内容上应用AI以提取更多信息。 AI 扩充示例包括向照片添加辅助字幕和评估文本情绪。 AI 扩充内容可以发送到 知识存储,该存储将 AI 扩充管道的输出保留为独立分析或下游处理。
生成的数据序列化为 JSON 数据。 JSON 填充 搜索索引。 可以通过查询浏览填充的 搜索索引 。 当用户执行搜索查询(如“coffee”)时,搜索引擎将在搜索索引中查找该信息。 搜索索引的结构类似于表,称为索引架构。 典型的搜索索引架构包含字段、字段的数据类型(如字符串)和字段属性。 字段存储可搜索文本,字段属性支持筛选和排序等操作。 下面是搜索索引架构的示例:

结果是一个搜索解决方案,通常包括以下组件:
| 组件 | 功能 | 
|---|---|
| API 层 | 接受用户查询并将其路由到搜索引擎。 | 
| 查询处理器 | 分析和解释查询。 | 
| 搜索策略 | 确定如何搜索,例如关键字、语义、矢量或混合。 | 
| 执行引擎 | 跨搜索索引执行查询。 AI 驱动的信息提取使数据具有可搜索性。 | 
| 结果汇总器 | 将多个源的结果合并到统一列表中。 | 
| 排名引擎 | 根据相关性、新鲜度、受欢迎程度或 AI 信号对结果进行排序。 | 
| 响应格式化程序 | 设置在用户界面中显示的结果的格式。 |