重要
此功能在 Beta 版中。
本页介绍 Data Science Agent,这是一种 AI 数据代理,可通过在 Databricks 助手中选择代理模式。 它专为 Databricks 笔记本和 SQL 编辑器设计,它浏览数据、生成和运行代码以及修复错误-全部来自单个提示。
什么是数据科学代理?
Data Science Agent 是 Databricks 助手代理模式下的强大功能,可将助手转换为智能助手,可以在 Databricks 笔记本和 SQL 编辑器中自动执行整个多步骤数据科学工作流。
与助理聊天模式相比,代理模式扩展了功能:规划解决方案、检索相关资产、运行代码、使用单元格输出来改进结果、自动修复错误等。
数据科学代理可以规划和生成代码,以便在笔记本或查询中运行,以便在 SQL 编辑器中运行。 代理与你合作,批准其计划,并在继续之前确认其后续步骤。 经批准,数据科学代理可以使用工具执行搜索表、编辑笔记本、运行单元格和读取单元格输出等任务。
数据科学代理的访问和作由用户的权限控制。 它只能访问你有权访问的数据,并执行你有权执行的作。
要求
若要使用数据科学代理,工作区需要以下各项:
- 为帐户和工作区启用了合作伙伴支持的 AI 功能。 请参阅 合作伙伴支持的 AI 功能。
- 已启用数据科学代理预览版。 请参阅 管理 Azure Databricks 预览版。
使用数据科学代理
若要使用数据科学代理,请执行以下作:
在 Databricks 笔记本或 SQL 编辑器中,打开助手侧面板。
在右下角,选择 “代理”。 这会切换助手的代理模式,使你能够与数据科学代理交互。
(可选)对于更长的、更开放的任务,请在 Planner 上切换。 这样,数据科学代理就可以协调多步骤工作负荷。 代理创建一个计划,并在继续执行后续步骤之前提出澄清问题。 启用 Planner 后,代理可以生成包含数据分析和可视化效果的完整笔记本。
输入代理的提示。 例如,“从 samples.bakehouse 分析
@sales_transactions以识别最畅销的产品”。小窍门
使用
@table_name.. 引用特定表。 代理将使用该表和任何关联的元数据来策展其响应。 代理尊重用户的 Unity 目录权限,因此它只能访问你有权访问的数据。当代理生成响应并执行其计划时,它通常会暂停以获取输入:
启用 Planner 后,代理会创建一个分步计划并提出澄清问题。 回答代理的澄清问题,以帮助其磨练其计划。
当代理需要运行代码时,它会在继续之前请求你的批准。 允许 或 拒绝 其请求。 还可以 在此线程中选择“允许 ”(引用助手对话线程)或 “始终允许”。
重要
数据科学代理可以在笔记本中生成和执行代码。 虽然它有防护措施来防止危险行动,但仍有风险。 应仅将其与信任的代码和数据一起使用
当代理继续工作时,系统可能会提示你选择“ 继续 ”或“ 拒绝”。 查看代理的现有工作,然后选择 “继续 ”以允许代理继续执行后续步骤或 拒绝 以告诉它尝试其他作。
若要在代理正常工作时停止代理,请单击红色
代理可以创建新的笔记本单元(或查询)、生成文本和代码、运行笔记本单元格以及访问单元格输出来解释结果。
注释
为了使数据科学代理继续其工作并执行后续步骤,需要保留在代理正在使用的当前选项卡上。
用例
在代理模式下,助手具有扩展的功能,例如查找数据、解释输出和执行单元格作。
启用 Planner 后,数据科学代理可以帮助完成更复杂的数据科学任务,包括探索性数据分析、预测和机器学习。 甚至可以通过数据科学代理从头开始创建新的数据分析笔记本。 为了获得更好的结果,请提供要与“”@table_name一起使用的表。
请尝试以下提示以开始作:
-
数据发现:
- “哪个表包含烘焙屋事务数据?”
- “我想在洛杉矶市看到日期 2025-01-01 的天气数据, CA。
- “查找包含纽约市出租车数据的表,并显示前 10 行。
-
探索性数据分析:
- “帮助我分析 A 列中的 JSON 字符串。
- “创建此表中数据的可视化效果。
- “解释此条形图。
- “描述
@sales_transactions数据集。 执行一些 EDA 来帮助我了解列统计信息并直观显示值的分布。 像数据科学家一样思考。 - “分析
@workload_insights以按收入查找 Databricks SQL 工作负载的前 5 个客户。 然后绘制过去 6 周客户每周为 Databricks SQL 拥有的用户数。
-
预测:
- “使用
@incidents数据集,生成未来 2 周事件的每日数量预测。 完成后,请给我一个数据表和一个交互式图表来显示结果。 - “使用
@website_traffic数据集,预测未来月份的每日访问者计数。 突出显示任何季节性模式。 - “从
@inventory数据集生成未来 6 个月的产品需求预测,包括置信区间。
- “使用
-
机器学习:
- “执行一些数据准备和特征工程,以准备此数据集进行模型训练。
- “训练数据集上的 @customer\_data 分类模型以预测流失。 使用准确性和 AUC 指标评估模型。
- “使用 @housing\_prices 数据集对回归模型执行超参数优化以提高预测错误。
- “在数据集上 @sales\_leads 构建聚类分析模型,以标识客户细分,并提供每个群集特征的摘要。
-
笔记本组织:
- “创建一个汇总此笔记本结果的新单元格。
- “将此笔记本命名为相关名称。
探索性数据分析
使用数据科学代理对数据集执行探索性数据分析。 例如,尝试使用代理来帮助创建分析 samples.bakehouse.sales_transactions 数据集的新笔记本。
在空笔记本选项卡中,打开“助理”面板,选择 “代理 模式和 规划器”,然后输入以下提示:“从 samples.bakehouse 描述数据集 @sales\_transactions 。 我想执行一些 EDA,以便我可以了解列统计信息并直观显示值的分布。 像数据科学家一样思考。
代理会创建一个计划来回答你的提示,并可能会提出澄清的问题。 批准后,它会生成新的笔记本单元格,其中包括代码来浏览解释其过程和发现的数据和文本。