你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 机器学习中的深度学习与机器学习

本文将深度学习与机器学习进行比较,并介绍了它们如何适应更广泛的 AI 类别。 了解可基于 Azure 机器学习构建的深度学习解决方案,如欺诈检测、语音和面部识别、情绪分析及时序预测。

有关为解决方案选择算法的指南,请参阅机器学习算法速查表

Azure 机器学习中的 Foundry 模型是预先训练的深度学习模型,可针对特定用例进行微调。 有关详细信息,请参阅 探索 Azure 机器学习中的 Azure AI Foundry 模型以及如何使用 Azure 机器学习精心策划的开源基础模型

深度学习、机器学习和 AI

描述 AI、机器学习和深度学习之间的关系的关系图。

以下定义描述了深度学习、机器学习、AI 之间的关系:

  • 深度学习是机器学习的一个子集,它基于人工神经网络。 学习过程之所以具有深度,是因为人工神经网络的结构包含多个输入层、输出层和隐藏层。 每一层都包含若干单元,这些单元会将输入数据转换为下一层可用于特定预测任务的信息。 由于此结构,计算机可以通过自己的数据处理来学习。

  • 机器学习 是人工智能的一部分,它使用技术(如深度学习),使计算机能够使用体验来提高其执行任务的能力。 学习过程由以下步骤组成:

    1. 将数据馈送到算法中。 (在此步骤中,可以通过执行特征提取来向模型提供其他信息。)
    2. 使用此数据训练模型。
    3. 测试并部署模型。
    4. 使用已部署的模型执行自动化预测任务。 (换言之,调用并使用已部署的模型来接收模型返回的预测。)
  • AI 是一种技术,使计算机能够模仿人类智能。 其中包括机器学习。

  • 生成 AI 是 AI 的子集,它使用技术(如深度学习)来生成新内容。 例如,可以使用生成式 AI 创建图像、文本或音频。 这些模型使用大量预先训练的知识来生成此内容。

使用机器学习和深度学习技术,可以构建计算机系统和应用程序来执行通常与人类智能相关的任务。 这些任务包括图像识别、语音识别和语言翻译。

深度学习和机器学习的技术

现在,你已基本了解机器学习与深度学习的区别,接下来让我们比较这两种技术。 在机器学习中,需要通过使用更多信息来告知算法如何进行准确的预测。 (例如,通过执行特征提取。在深度学习中,该算法可以了解如何通过自己的数据处理进行准确的预测,因为它使用人工神经网络结构。

下表更详细地比较了这两种技术:

机器学习 深度学习
数据点数 可以使用少量的数据做出预测。 需要使用大量的训练数据做出预测。
硬件依赖项 可在低端计算机上工作。 不需要大量的计算能力。 依赖于高端计算机。 它本质上会执行大量的矩阵乘法运算。 GPU 可以有效地优化这些运算。
特征化过程 需要可准确识别且由用户创建的特征。 从数据中学习高级特征,并自行创建新特征。
学习方法 将学习过程划分为多个更小的步骤。 然后,将每个步骤的结果合并成一个输出。 通过端到端地解决问题来完成学习过程。
训练时间 训练耗时相对较短,范围从几秒到几小时不等。 通常训练耗时较长,因为深度学习算法包含多个层级。
输出 输出通常是一个数值,例如评分或分类。 输出可以具有多种格式,如文本、分数或声音。

什么是迁移学习?

训练深度学习模型通常需要大量训练数据、高端计算资源(GPU、TPU)和较长的训练时间。 如果没有这些内容,可以使用称为“转移学习”的技术来快捷方式训练过程。

迁移学习是一种将解决某个问题时所获得的知识,应用于另一个不同但相关问题的技术。

由于神经网络的结构,第一组层通常包含较低级别特征,而最后一组层则包含更贴近所讨论领域的更高级别特征。 通过重新调整最终层的用途,以用于新的领域或问题,可显著减少训练新模型所需的时间、数据和计算资源。 例如,如果你已经有一个识别汽车的模型,则可以通过使用转移学习来重新调整该模型,以识别卡车、摩托车和其他种类的车辆。

若要了解如何在 Azure 机器学习中使用开源框架为图像分类应用传输学习,请参阅 使用转移学习训练深度学习 PyTorch 模型

深度学习用例

由于人工神经网络结构,深度学习擅长识别非结构化数据(如图像、声音、视频和文本)中的模式。 正因如此,深度学习正快速变革包括医疗保健、能源、金融和交通在内的多个行业。 如今,这些行业正在重新审视传统业务流程。

以下段落将介绍深度学习的一些最常见应用场景。 在 Azure 机器学习中,可以使用从开源框架生成的模型,也可以使用提供的工具生成模型。

命名实体识别

命名实体识别是一种深度学习方法,它以文本片段为输入,并将其转换为预设的类别。 此新信息可以是邮政编码、日期或产品 ID。 随后,这些信息可存储在结构化数据模型中,用于构建地址列表或作为标识验证引擎的基准。

对象检测

深度学习已应用于许多对象检测用例。 对象检测用于识别图像中的对象(如汽车或人员),并使用边界框为每个对象提供特定位置。

对象检测技术已在游戏、零售、旅游和自动驾驶汽车等行业中应用。

图像说明生成

与图像识别一样,在图像说明生成中,系统必须针对给定图像生成描述图像内容的文字说明。 当能够检测并标记照片中的对象后,下一步就是将这些标签转化为描述性语句。

通常,图像说明生成应用程序会使用卷积神经网络识别图像中的对象,然后使用循环神经网络将标签转化为连贯的语句。

自动翻译

自动翻译提取某种语言的单词或句子,并将其自动翻译成另一种语言。 自动翻译由来已久,但深度学习在两个特定领域取得了令人印象深刻的结果:文本自动翻译(及语音转文本翻译)和图像自动翻译。

通过适当的数据转换,神经网络能够理解文本、音频和视觉信号。 自动翻译可用于从大型音频文件中识别声音片段,并将口述语言或图像内容转录为文本。

文本分析

基于深度学习方法的文本分析涉及分析大量文本数据(例如医疗文档或费用收据)、识别模式,以及从中创建有条不紊、简洁的信息。

组织使用深度学习执行文本分析,以检测内部交易并遵守政府法规。 另一个常见示例是保险欺诈:文本分析通常用于分析大量文档,以识别保险索赔欺诈的可能性。

人工神经网络

人工神经网络由多层互联的节点构成。 深度学习模型采用具有大量层级的神经网络。

以下部分介绍一些常用的人工神经网络拓扑。

前馈神经网络

前馈神经网络是最简单的人工神经网络类型。 在前馈网络中,信息只朝一个方向移动:从输入层移向输出层。 前馈神经网络通过一系列隐藏层对输入进行逐层变换。 每一层由一组神经元组成,并且每一层都与前一层中的所有神经元完全连接。 最后一个全连接层(即输出层)代表生成的预测。

循环神经网络 (RNN)

循环神经网络是一种被广泛使用的人工神经网络。 这些网络会保存某一层的输出,并将其反馈至输入层,以帮助预测该层的结果。 循环神经网络具有很强的学习能力。 它们广泛应用于时序预测、学习手写和识别语言等复杂任务。

卷积神经网络 (CNN)

卷积神经网络是一种特别高效的人工神经网络,其架构具有独特性。 各层以三维形式组织:宽度、高度和深度。 某一层的神经元并非与下一层的所有神经元相连,而只连接到下一层中一个小区域的神经元。 最终输出被化简为一个沿深度维度组织的概率分数向量。

卷积神经网络用于视频识别、图像识别和推荐器系统等领域。

生成对抗网络 (GAN)

生成对抗网络是为创建真实内容(如映像)而训练的生成模型。 它们由两个名为 生成器判别器 的网络组成。 这两个网络同时进行训练。 在训练过程中,生成器使用随机噪音来创建新合成数据(与真实数据非常相似)。 鉴别器将生成器的输出作为输入,并使用实际数据来确定生成的内容是真实内容还是合成内容。 每个网络都与另一个网络竞争。 生成器正尝试生成与真实内容无法区分的合成内容,而判别器正在尝试将输入正确分类为真实内容或合成内容。 这一输出随后将被用来更新两个网络的权重,帮助它们更好地实现各自的目标。

生成对抗网络用于解决图像到图像转换和年龄进度等问题。

变形金刚

转换器是用于解决包含序列的问题(如文本或时序数据)的模型体系结构。 它们包含编码器层和解码器层。 编码器接受输入,并将其映射到包含上下文等信息的数值表示形式。 解码器使用编码器中的信息生成输出,例如已翻译文本。 使转换器不同于包含编码器和解码器的其他体系结构的是关注子层。 注意 是指基于其上下文相对于序列中其他输入的重要性关注输入的特定部分。 例如,当模型汇总新闻文章时,并非所有句子都与描述主理念相关。 通过把重点放在文章的关键词上,总结可以用一句话来完成,即标题。

转换器用于解决自然语言处理问题,如翻译、文本生成、问答和文本摘要。

转换器的一些著名实现有:

  • Bidirectional Encoder Representations from Transformers (BERT)
  • 生成式预训练转换器-2(GPT-2)
  • 生成式预训练变换器 3 (GPT-3)

Next steps

以下文章介绍了在 Azure 机器学习中使用开源深度学习模型的更多选项: