你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 开放数据集是特选的公共数据集,可用于将方案特定的特征添加到机器学习解决方案,以提高模型的准确度。 开放数据集已在 Microsoft Azure 云中提供。 它们已集成到 Azure 机器学习中,可供 Azure Databricks 使用。 还可以通过 API 访问数据集,并可以在 Power BI 和 Azure 数据工厂等其他产品中使用它们。
数据集包括不受任何限制的天气、人口普查、节假日、公共安全和位置数据,有助于定型机器学习模型和扩充预测解决方案。 还可以通过 Azure 开放数据集共享公共数据集。
准备的精选数据集
Azure 开放数据集中的精选开放公共数据集更适合用于机器学习工作流。
有关可用数据集的详细信息,请访问 Azure 开放数据集目录资源。
数据科学家通常花费大部分时间清理和准备数据进行高级分析。 为了节省你的时间,开放数据集将复制到 Azure 云中,然后经过预处理。 系统将按固定的间隔从源提取数据,例如,通过与美国海洋与大气管理局 (NOAA) 建立 FTP 连接来提取数据。 接下来,将数据分析成结构化格式,然后根据需要使用特征(例如最靠近的气象站的邮政编码或位置)扩充这些数据。
数据集与 Azure 中的云计算在一起托管,简化了访问和操作。
下面是可用数据集的示例:
运输
| 数据集 | 说明 |
|---|---|
| 纽约市出租车和豪华轿车委员会 - 黄色出租车行程记录 | 黄色出租车行程记录包括上车和下车日期/时间、上车和下车地点、行程距离、按项化票价、费率类型、付款类型和司机报告的乘客计数。 |
| 纽约市出租车和豪华轿车委员会 - 绿色出租车行程记录 | 绿色出租车行程记录包括上车和下车日期/时间、上车和下车地点、行程距离、按项化票价、费率类型、付款类型和司机报告的乘客计数。 |
劳动和经济
| 数据集 | 说明 |
|---|---|
| 美国劳动力统计 | 美国劳动力统计部门按年龄、性别、种族和族裔群体提供劳动力统计、劳动力参与率以及平民非机构人口统计数据。 |
| 美国国民就业小时数和收入 | 目前的就业统计(CES)计划对美国非农用工、工时和工人的收入进行了详细的行业估计。 |
访问数据集
使用 Azure 帐户,可以通过代码或 Azure 服务界面访问开放数据集。 数据与 Azure 云计算资源共置在一起,可在机器学习解决方案中使用。
开放数据集通过 Azure 机器学习 UI 和 SDK 提供。 开放数据集还提供 Azure Notebooks 和 Azure Databricks 笔记本,这些笔记本可将数据连接到 Azure 机器学习和 Azure Databricks。 也可以通过 Python SDK 访问数据集。
不过,无需使用 Azure 帐户,即可访问开放数据集;可以在含或不含 Spark 的任意 Python 环境中访问它们。
请求获取或参与数据集
如果找不到所需的数据,请向我们发送电子邮件,以请求获取数据集或参与数据集。