你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure 机器学习工作室连接到数据

重要说明

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。 对它的支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。 使用 SDK v1 的现有工作流将在支持结束日期后继续运行。 但是,当产品发生体系结构更改时,它们可能会面临安全风险或中断性变更。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 CLI 和 Python SDK v2? 以及 SDK v2 参考

本文介绍如何使用 Azure 机器学习工作室访问数据。 使用 Azure 机器学习数据存储连接到 Azure 存储服务中的数据。 然后,将 ML 工作流任务的数据与 Azure 机器学习数据集打包。

此表定义并汇总了数据存储和数据集的优势。

物体 说明 优点
数据存储 若要安全地连接到 Azure 上的存储服务,请将连接信息(订阅 ID、令牌授权等)存储在与工作区关联的 Key Vault 因为信息已安全存储,所以不会将身份验证凭据或原始数据源置于风险之中,也不再需要在脚本中对这些值进行硬编码
数据集 数据集创建还会创建对数据源位置的引用,以及其元数据的副本。 借助数据集,可以在模型训练期间访问数据、共享数据、与其他用户协作,以及使用开源库(如 pandas)进行数据浏览。 由于数据集被延迟计算,并且数据保留在其现有位置,因此可以在存储中保留数据的单个副本。 此外,不会产生额外的存储成本,避免了对原始数据源的意外更改,ML 工作流性能提高。

有关数据存储和数据集在 Azure 机器学习数据访问工作流中的位置的详细信息,请访问 安全访问数据

有关 Azure 机器学习 Python SDK 和代码优先体验的详细信息,请访问

Prerequisites

  • Azure 订阅。 如果没有 Azure 订阅,请在开始操作前先创建一个免费帐户。 试用 Azure 机器学习的免费版或付费版

  • 访问 Azure 机器学习工作室

  • Azure 机器学习工作区。 创建工作区资源

    • 创建工作区时,Azure Blob 容器和 Azure 文件共享会自动注册到工作区作为数据存储。 它们分别命名为 workspaceblobstoreworkspacefilestore。 为了获得足够的 blob 存储资源,workspaceblobstore 已设置为默认数据存储,已配置为可供使用。 对于更多 Blob 存储资源,需要一个 Azure 存储帐户,其中包含 受支持的存储类型

创建数据存储

可从这些 Azure 存储解决方案创建数据存储。 对于不支持的存储解决方案,为了在 ML 试验期间节省数据出口成本,你必须将数据移到支持的 Azure 存储解决方案。 有关数据存储的详细信息,请访问此资源

可以使用基于凭据的访问权限或基于标识的访问创建数据存储。

使用 Azure 机器学习工作室创建新的数据存储。

重要说明

如果数据存储帐户位于虚拟网络中,则需要执行额外的配置步骤,以确保工作室可以访问数据。 有关相应配置步骤的详细信息,请访问网络隔离和隐私

  1. 登录到 Azure 机器学习工作室
  2. 在左窗格的“资产”下,选择“数据”
  3. 在顶部,选择“数据存储”
  4. 选择“+创建”
  5. 完成表单以创建和注册新的数据存储。 该表单会根据你选择的 Azure 存储类型和身份验证类型智能地进行更新。 有关在何处查找填充此表单所需的身份验证凭据的详细信息,请访问本文档的 存储访问权限和权限部分

以下屏幕截图显示了 Azure Blob 数据存储 创建面板:

显示 Azure blob 数据存储创建面板的屏幕截图。

创建数据资产

创建数据存储后,创建一个数据集以与数据交互。 数据集将数据打包到机器学习任务(例如训练)的延迟评估可使用对象中。 有关数据集的更多信息,请访问创建 Azure 机器学习数据集

数据集有两种类型:FileDataset 和 TabularDataset。 FileDatasets 创建对单个或多个文件或公共 URL 的引用。 TabularDatasets 以表格格式表示数据。 可以创建 TabularDatasets,从

  • .csv
  • .tsv
  • .parquet
  • .json 文件和 SQL 查询结果。

以下步骤介绍如何在 Azure 机器学习工作室中创建数据集。

注意

通过 Azure 机器学习工作室创建的数据集会自动注册到工作区。

  1. 导航到 Azure 机器学习工作室

  2. 在左侧导航栏的“资产”下,选择“数据”。 在“数据资产”选项卡上,选择“创建”,如以下屏幕截图所示:

显示“数据资产”选项卡中的“创建”的屏幕截图。

  1. 为数据资产提供名称和可选说明。 然后,在 “类型”下,选择数据集类型( 文件表格),如以下屏幕截图所示:

显示数据资产的名称、说明和类型的设置的屏幕截图。

  1. 数据源 ”窗格随即打开,如以下屏幕截图所示:

显示数据源选择窗格的屏幕截图。

你的数据源具有不同的选项。 对于已存储在 Azure 中的数据,请选择“从 Azure 存储”。要从本地驱动器上载数据,请选择“从本地文件”。对于存储在公共 web 位置的数据,请选择“从 web 文件”。还可以从 SQL 数据库或 Azure 开放数据集创建数据资产。

  1. 在文件选择步骤中,选择 Azure 应存储数据的位置,以及要使用的数据文件。

    1. 如果数据位于虚拟网络中,则启用跳过验证。 有关虚拟网络隔离和隐私的详细信息,请访问 资源。
  2. 按照步骤为数据资产设置数据分析设置和架构。 设置会根据文件类型进行预填充,可以在创建数据资产之前进一步配置设置。

  3. 到达“审阅”步骤后,选择最后一页上的“创建”

数据预览和配置文件

创建数据集后,验证是否可以在工作室中查看预览和配置文件:

  1. 登录到 Azure 机器学习工作室
  2. 在左侧导航中的 “资产 ”下,选择 “数据 ”,如以下屏幕截图所示:

屏幕截图突出显示了“数据资产”选项卡中的“创建”。

  1. 选择要查看的数据集的名称。
  2. 选择”浏览“选项卡。
  3. 选择 “预览 ”选项卡,如以下屏幕截图所示:

屏幕截图显示了数据集的预览。

  1. 选择“ 配置文件 ”选项卡,如以下屏幕截图所示:

屏幕截图显示“配置文件”选项卡中的数据集列元数据。

若要验证数据集是否为 ML 就绪,可以使用数据集中的摘要统计信息。 对于非数值列,这些统计信息仅包括基本统计度量值,例如最小值、最大值和错误计数。 数值列提供统计矩和估计分位数。

Azure 机器学习数据集数据配置文件包括:

注意

对于关类型不相的特征,将显示空白条目。

统计信息 说明
Feature 汇总列名称
配置文件 基于推断类型的内联可视化效果。 字符串、布尔值和日期具有值计数。 小数(数值)具有近似的直方图。 这些可视化效果提供了对数据分布的快速理解
类型分布 列中类型的内联值计数。 Null 是它们自己的类型,因此该可视化效果可以检测奇数值或缺失值
类型 推断出的列类型。 可能的值包括:字符串、布尔值、日期和小数
最小值 列的最小值。 对于类型没有固有排序(例如布尔值)的功能,将显示空白条目
Max 列的最大值。
Count 列中缺失和非缺失条目的总数
非缺失计数 列中的非缺失条目数。 空字符串和错误被视为值,因此它们不会计入“非缺失计数”。
分位数 每个分位数的近似值,以提供数据分布的感知
平均值 列的算术平均值或平均值
标准偏差 度量此列数据的离差量或变化量
Variance 度量此列的数据与其平均值的差距
倾斜 度量此列的数据与正态分布的差异
峰度 与正态分布相比,度量此列数据的“尾度”

存储访问和权限

为了确保安全连接到 Azure 存储服务,Azure 机器学习会要求你具有相应数据存储的访问权限。 此访问权限依赖用于注册数据存储的身份验证凭据。

虚拟网络

如果你的数据存储帐户在虚拟网络中,则需要执行额外配置步骤来确保 Azure 机器学习能够访问你的数据。 访问 虚拟网络中的 Azure 机器学习工作室 ,以确保在创建和注册数据存储时应用相应的配置步骤。

访问验证

警告

不支持跨租户访问存储帐户。 如果方案需要跨租户访问,请联系 (Azure 机器学习数据支持团队),获取有关自定义代码解决方案的帮助。

在初始的数据存储创建和注册过程中,Azure 机器学习会自动验证基础存储服务是否存在,以及用户提供的主体(用户名、服务主体或 SAS 令牌)是否可以访问指定的存储。

创建数据存储后,仅对需要访问基础存储容器的方法执行此验证。 并非每次检索数据存储对象时都会执行验证。 例如,从数据存储下载文件时会进行验证。 但是,如果要更改默认数据存储,则不会进行验证。

若要验证对基础存储服务的访问,请根据要创建的数据存储类型提供帐户密钥、共享访问签名 (SAS) 令牌或服务主体。 存储类型矩阵列出了对应于每个数据存储类型的受支持的身份验证类型。

可在 Azure 门户上查找帐户密钥、SAS 令牌和服务主体信息。

  • 若要获取用于身份验证的帐户密钥,请在左窗格中选择“存储帐户”,然后选择要注册的存储帐户

    • 概述 ”页提供帐户名称、容器和文件共享名称等信息
    • 展开左侧导航中的“安全性 + 网络”节点
    • 选择“访问密钥”
    • 可用的密钥值用作“帐户密钥”值
  • 若要获取用于身份验证的 SAS 令牌,请在左窗格中选择“存储帐户”,然后选择所需的存储帐户

    • 要获得“访问密钥”值,请展开左侧导航中的“安全性 + 网络”节点
    • 选择“共享访问签名”
    • 完成生成 SAS 值的过程
  • 若要使用 服务主体 进行身份验证,请转到 应用注册 并选择要使用的应用

    • 其对应的 “概述 ”页包含所需的信息,如租户 ID 和客户端 ID

重要说明

  • 若要更改 Azure 存储帐户(帐户密钥或 SAS 令牌)的访问密钥,请确保将新凭据与工作区和连接到它的数据存储同步。 有关详细信息,请访问同步更新的凭据
  • 如果您注销并重新注册具有同一名称的数据存储,并且重新注册失败,则您的工作区中的 Azure Key Vault 可能没有启用软删除功能。 默认情况下,将为工作区创建的密钥保管库实例启用软删除。 但是,如果使用现有密钥保管库或在 2020 年 10 月之前创建了工作区,则可能无法启用它。 有关如何启用软删除的详细信息,请访问“为现有密钥保管库启用软删除”。

权限

对于 Azure blob 容器和 Azure Data Lake Gen 2 存储,请确保身份验证凭据具有存储 Blob 数据读取者访问权限。 详细了解存储 Blob 数据读取者。 默认情况下,帐户 SAS 令牌没有权限。

  • 如需进行数据读取访问,你的身份验证凭据必须至少具有容器和对象的“列出”和“读取”权限。

  • 对于数据写入权限,还需要写入和添加权限。

使用数据集进行训练

在机器学习试验中使用数据集来训练 ML 模型。 详细了解如何使用数据集进行训练

Next steps