你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文档分析:Markdown 声明

Azure AI 内容理解将非结构化文档转换为 GitHub 风格的 Markdown,同时保持内容和布局,以便下游能够准确使用。 本文介绍如何在 Markdown 中表示每个内容和布局元素。

字词和选择标记

识别的字词和检测到的选择标记以 Markdown 表示为纯文本。 选择标记使用 Unicode 字符 (已选中)和 (已清除)进行编码。 内容可能会被转义,以避免与 Markdown 格式化语法产生歧义。

条形码

条形码表示为具有替代文本和标题的 Markdown 图像:![alt text](url "title")

内容类型 Markdown 模式 示例:
条形码 ![{barcode.kind}]({barcode.path} "{barcode.value}") ![QRCode](barcodes/1.2 "https://www.microsoft.com")

公式

在 Markdown 中使用 LaTeX 对数学公式进行编码:

  • 内联公式用单美元符号($...$)括起来,以保持文本流。
  • 展示型公式使用双美元符号 ($$...$$) 进行独立显示。
  • 多行公式表示为连续显示公式,中间没有空行。 此结构保留数学关系。
公式类型 Markdown 可视化
内联 $\sqrt { -1 } $ is $i$ $\sqrt { -1 } $ 为 $i$
显示位置 $$a^2 + b^2 = c^2$$ $a^2 + b^2 = c^2$
多行 $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$
$$= x ( x + 4 ) + 4$$
$$(x + 2) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x (x + 4) + 4$$

映像

检测到的图像(包括图形和图表)当前使用 Markdown 中的 HTML <figure> 元素来表示,这些元素包装了图像中检测到的文本。 任何标题都通过 <figcaption> 元素表示。 任何关联的脚注在图后立即显示为文本。

<figure>
<figcaption>Figure 2: Example</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is a footnote.

行和段落

段落在 Markdown 中表示为用空白行分隔的文本块。 当行可用时,文档中的每一行都映射到 Markdown 中的单独一行。

章节

具有标题或节标题角色的段落将转换为 Markdown 标题。 如果有标题,则将其指定为一级标题。 将分配所有其他部分的标题级别以保留检测到的分层结构。

表格

当前,通过使用 HTML 表格标记(<table><tr><th><td>)来在 Markdown 中表示表格,从而支持通过 rowspancolspan 属性实现合并单元格,并通过 <th> 实现丰富的表头。 任何标题都通过 <caption> 元素表示。 任何关联的脚注在表格后面立即显示为文本。

<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
表 1. 示例:
标头 A标头 B
单元格 1A单元格 1B
单元格 2A单元格 2B
这是一个脚注。

页面元数据

Markdown 无法原生编码页面元数据,例如页码、页眉、页脚和分页符。 由于此信息可能对下游应用程序有用,因此我们对 HTML 注释等元数据进行编码。

元数据 Markdown
页码 <!-- PageNumber="1" -->
页眉 <!-- PageHeader="Header" -->
页脚 <!-- PageNumber="Footer" -->
分页 <!-- PageBreak -->

结论

内容理解 Markdown 元素提供了一种强大的方法来表示已分析文档的结构和内容。 正确理解和使用这些 Markdown 元素时,可以增强文档处理工作流。 还可以生成更复杂的内容提取应用程序。