从 Fabric OneLake 引入数据

Power Automate Process Mining 允许您直接从 Fabric OneLake 通过 Fabric Lakehouse 存储和读取事件日志数据。 此功能通过直接连接到您的 OneLake 来简化提取、转换、加载 (ETL) 管理。

此功能当前支持引入以下内容:

  • 增量表
    • Fabric Lakehouse 中的单个 Delta 表

文件和文件夹

  • CSV
    • 单个 CSV 文件。
    • 包含多个具有相同结构的 CSV 文件的文件夹。 所有文件都将被引入。
  • Parquet
    • 单个 parquet 文件。
    • 包含多个具有相同结构的 parquet 文件的文件夹。 所有文件都将被引入。
  • Delta-parquet
    • 包含 delta-parquet 结构的文件夹。

先决条件

  • 确保在 OneLake 租户设置中已启用用户可通过 Fabric 外部应用访问存储在 OneLake 中的数据选项。

  • 不同于默认我的工作区的 Fabric 工作区。

  • 管理员角色必须分配给为同一环境中的其他用户执行环境初始工作区设置的用户。

  • Fabric 工作区需要共享给具有管理员角色的 Process Insight Prod 服务主体。 若要注册流程见解生产服务主体,请按照安装 Azure 工具中的步骤操作。

    共享到流程见解服务主体的 Fabric 工作区设置的屏幕截图。

  • 必须在此工作区中创建 Fabric 湖屋,其中包含支持格式的数据。

重要提示

当前不支持以下项:启用了架构支持的 Fabric Lakehouse。

  • 湖屋中的 CSV 数据应满足以下 CSV 文件格式要求:

    • 压缩类型:无
    • 列分隔符:逗号 (,)
    • 行分隔符:默认和编码。 例如,默认(\r,\n, 或 \r\n)

    文件格式设置屏幕的屏幕截图。

  • 所有数据必须采用最终事件日志格式,并满足数据要求中列出的要求。 数据应该已准备好映射到流程挖掘架构。 引入后没有可以进行的数据转换。

  • 标题行的大小(宽度)当前限制为 1 MB。

重要提示

确保 CSV 文件中显示的时间戳符合 ISO 8601 标准格式(例如,YYYY-MM-DD HH:MM:SS.sssYYYY-MM-DDTHH:MM:SS.sss)。

连接到 Fabric OneLake

  1. 在左侧导航窗格中,选择 Process mining>在此处开始

  2. 流程名称字段中输入流程的名称。

  3. 数据源标题下,选择导入数据>OneLake>继续

    “创建新流程”步骤的屏幕截图。

  4. 选择可选 Power BI 工作区或选择跳过

  5. 连接设置屏幕上,从下拉菜单中选择 Fabric 工作区。 这将填充 Lakehouse 下拉菜单。 从菜单中,选择包含您的数据的湖屋,然后选择下一步

  6. 浏览 Lakehouse 文件夹结构,然后选择包含事件日志数据的 Delta 表、文件或文件夹。

    您可以选择单个增量表、单个文件或包含多个文件的文件夹。 所有文件必须具有相同的标头和格式。

  7. 选择下一步

  8. 映射数据屏幕上,将数据映射到所需的架构。

    “映射数据”屏幕的屏幕截图。

  9. 通过选择保存和分析来完成连接。

定义增量数据刷新设置

您可以通过完全刷新或增量刷新按计划刷新从 Fabric OneLake 引入的流程。 虽然没有保留策略,但您可以使用以下方法之一以增量方式引入数据:

如果您在上一节中选择了单个 Delta 表,请向所选表中追加更多数据。

如果您在上一节中选择了单个文件,请向所选文件追加更多数据。

如果您在上一部分中选择了文件夹,请将增量文件添加到所选文件夹中。

重要提示

将增量文件添加到选定文件夹或子文件夹时,请确保通过使用日期(如 YYYMMDD.csvYYYYMMDDHHMMSS.csv)命名文件来指示增量顺序。

要刷新流程:

  1. 转到流程的详细信息页面。

  2. 选择刷新设置

  3. 计划刷新屏幕上,完成以下步骤:

    1. 打开使数据保持最新切换开关。
    2. 数据刷新频率下拉列表中,选择刷新频率。
    3. 开始时间字段中,选择刷新的日期和时间。
    4. 打开增量刷新切换开关。