你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI 内容理解将非结构化文档转换为 GitHub 风格的 Markdown,同时保持内容和布局,以便下游能够准确使用。 本文介绍如何在 Markdown 中表示每个内容和布局元素。
字词和选择标记
识别的字词和检测到的选择标记以 Markdown 表示为纯文本。 选择标记使用 Unicode 字符 ☒ (已选中)和 ☐ (已清除)进行编码。 内容可能会被转义,以避免与 Markdown 格式化语法产生歧义。
条形码
条形码表示为具有替代文本和标题的 Markdown 图像:。
| 内容类型 | Markdown 模式 | 示例: |
|---|---|---|
| 条形码 |  |
 |
公式
在 Markdown 中使用 LaTeX 对数学公式进行编码:
- 内联公式用单美元符号(
$...$)括起来,以保持文本流。 - 展示型公式使用双美元符号 (
$$...$$) 进行独立显示。 - 多行公式表示为连续显示公式,中间没有空行。 此结构保留数学关系。
| 公式类型 | Markdown | 可视化 |
|---|---|---|
| 内联 | $\sqrt { -1 } $ is $i$ |
$\sqrt { -1 } $ 为 $i$ |
| 显示位置 | $$a^2 + b^2 = c^2$$ |
$a^2 + b^2 = c^2$ |
| 多行 | $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$$$= x ( x + 4 ) + 4$$ |
$$(x + 2) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x (x + 4) + 4$$ |
映像
检测到的图像(包括图形和图表)当前使用 Markdown 中的 HTML <figure> 元素来表示,这些元素包装了图像中检测到的文本。 任何标题都通过 <figcaption> 元素表示。 任何关联的脚注在图后立即显示为文本。
<figure>
<figcaption>Figure 2: Example</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is a footnote.
行和段落
段落在 Markdown 中表示为用空白行分隔的文本块。 当行可用时,文档中的每一行都映射到 Markdown 中的单独一行。
章节
具有标题或节标题角色的段落将转换为 Markdown 标题。 如果有标题,则将其指定为一级标题。 将分配所有其他部分的标题级别以保留检测到的分层结构。
表格
当前,通过使用 HTML 表格标记(<table>、<tr>、<th> 和 <td>)来在 Markdown 中表示表格,从而支持通过 rowspan 和 colspan 属性实现合并单元格,并通过 <th> 实现丰富的表头。 任何标题都通过 <caption> 元素表示。 任何关联的脚注在表格后面立即显示为文本。
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
| 标头 A | 标头 B |
|---|---|
| 单元格 1A | 单元格 1B |
| 单元格 2A | 单元格 2B |
页面元数据
Markdown 无法原生编码页面元数据,例如页码、页眉、页脚和分页符。 由于此信息可能对下游应用程序有用,因此我们对 HTML 注释等元数据进行编码。
| 元数据 | Markdown |
|---|---|
| 页码 | <!-- PageNumber="1" --> |
| 页眉 | <!-- PageHeader="Header" --> |
| 页脚 | <!-- PageNumber="Footer" --> |
| 分页 | <!-- PageBreak --> |
结论
内容理解 Markdown 元素提供了一种强大的方法来表示已分析文档的结构和内容。 正确理解和使用这些 Markdown 元素时,可以增强文档处理工作流。 还可以生成更复杂的内容提取应用程序。
相关内容
- 尝试使用 Azure AI Foundry 中的内容理解来处理文档内容。
- 了解如何分析文档内容 分析器模板。
- 使用 可视文档搜索查看代码示例。
- 查看代码示例 分析器模板。