Fabric 中的镜像是一种低成本且低延迟的解决方案,用于将数据从各种系统一起引入单个分析平台。 可以直接从各种 Azure 数据库和外部数据源将现有数据资产复制到 Fabric 的 OneLake 中。
借助 OneLake 中可查询格式最 up-to日期数据,现在可以使用 Fabric 中的所有不同服务,例如使用 Spark 运行分析、执行笔记本、数据工程、通过 Power BI 报表可视化等。
通过 Fabric 中的镜像,用户可以享受高度集成的端到端和易于使用的产品,旨在简化分析需求。 镜像是为Microsoft之间的开放和协作构建的,以及可读取开源 Delta Lake 表格式的技术解决方案,是一种低成本且低延迟的交钥匙解决方案,可用于在 OneLake 中创建数据的副本,该副本可用于满足所有分析需求。
然后,Delta 表可以在 Fabric 的任何地方使用,从而允许用户加速其进入 Fabric 的旅程。
为什么在 Fabric 中使用镜像?
如今,许多组织在孤岛内拥有任务关键运营或分析数据。
目前访问和使用此数据需要复杂的 ETL(提取转换加载)管道、业务流程和决策孤岛,从而创建:
- 对重要、不断变化的数据进行受限和有限的访问
- 人员、流程和技术之间的摩擦
- 创建管道和流程以处理关键重要数据时的长时间等待
- 无需自由使用所需的工具来轻松分析和共享见解
- 缺乏适当的基础,用户可以共享和协作处理数据
- 所有分析方案的开放数据格式均不常见 - BI、AI、集成、工程甚至应用
Fabric 中的镜像提供了一种轻松的体验,可加快见解和决策的时间,并分解技术解决方案之间的数据孤岛:
- 准实时地将数据和元数据复制到 SaaS 数据湖中,内置了用于 BI 和 AI 的分析
Microsoft Fabric 平台建立在软件即服务(SaaS)的基础之上,该平台采用简单性和集成性到全新的级别。 若要了解有关 Microsoft Fabric 的详细信息,请参阅 什么是 Microsoft Fabric?
镜像会在 Fabric 工作区中创建以下项:
除了 SQL 查询编辑器,还有一个广泛的工具生态系统,包括 SQL Server Management Studio (SSMS),使用 Visual Studio Code 的 mssql 扩展,甚至 GitHubCopilot。
共享 使访问控制和管理变得轻松,以确保你可以控制对敏感信息的访问。 共享还可以在整个组织中实现安全且民主化的决策。
镜像类型
Fabric 提供了三种不同的方法,通过镜像将数据引入 OneLake。
- 数据库镜像 – Microsoft Fabric 中的数据库镜像允许复制整个数据库和表,使你能够将数据从各种系统一起引入单个分析平台。
- 元数据镜像 – Fabric 中的元数据镜像同步元数据(例如目录名称、架构和表),而不是以物理方式移动数据。 此方法利用 快捷方式,确保数据保留在源中,同时在 Fabric 中仍易于访问。
- 打开镜像 – Fabric 中的打开镜像旨在基于打开的 Delta Lake 表格式扩展镜像。 借助此功能,任何开发人员都能够根据打开的镜像方法和公共 API,将应用程序的更改数据直接写入 Microsoft Fabric 中的镜像数据库项。
目前,有以下外部数据库可用:
数据库镜像的近实时复制如何工作?
通过创建与作数据源的安全连接来启用镜像。 选择是复制整个数据库还是单个表,镜像会自动使数据保持同步。设置后,数据将持续复制到 OneLake 以供分析使用。
以下是镜像的核心原则:
在 Fabric 中启用镜像非常简单直观,无需创建复杂的 ETL 管道、分配其他计算资源和管理数据移动。
Fabric 中的镜像是一项完全托管的服务,因此无需担心镜像连接的托管、维护和管理复制。
元数据镜像的工作原理是什么?
镜像不仅支持数据复制,还可以通过快捷方式或元数据镜像而不是完整数据复制来实现,从而允许数据在物理上移动或复制的情况下可用。 此上下文中的镜像是指仅复制元数据(例如目录名称、架构和表),而不是实际数据本身。 此方法使 Fabric 能够使来自不同源的数据易于访问,而无需复制数据,从而简化数据管理并最大程度地减少存储需求。
例如,访问 Unity 目录中注册的数据时,Fabric 仅镜像 Azure Databricks 中的目录结构,允许通过快捷方式访问基础数据。 此方法可确保源数据中的任何更改都立即反映在 Fabric 中,而无需数据移动、保持实时同步并提高访问 up-to日期信息的效率。
打开镜像的工作原理是什么?
除了通过创建与数据源的安全连接来启用数据复制的镜像之外,还可以选择现有数据提供程序或编写自己的应用程序,将数据记录到镜像数据库中。 通过公共 API 或 Fabric 门户创建 打开的镜像数据库 后,即可在 OneLake 中获取登陆区域 URL,你可以根据打开的镜像规范来陆地更改数据。
数据进入采用适当格式的登陆区域后,复制将开始运行和管理将更改与更新、插入和删除合并到增量表中的复杂性。 此方法可确保写入登陆区域的任何数据将立即保留在 Fabric up-to-date 中。
共享
共享可简化访问控制和管理,而行级别安全性(RLS)和对象级别安全性(OLS)等安全控制措施也可确保控制对敏感信息的访问。 共享还可以在整个组织中实现安全且民主化的决策。
通过共享,用户向其他用户或用户组授予对镜像数据库的访问权限,而无需授予对工作区及其其余项的访问权限。 当某人共享镜像数据库时,他们还授予对 SQL 分析终结点的访问权限。
有关详细信息,请参阅 共享镜像数据库和管理权限。
跨数据库查询
使用存储在 OneLake 中的镜像数据库中的数据,可以在单个 T-SQL 查询中写入跨数据库查询、联接镜像数据库、仓库和 Lakehouses 的 SQL 分析终结点中的数据。 有关详细信息,请参阅 编写跨数据库查询。
例如,可以使用三部分命名从镜像数据库和仓库引用表。 在下面的示例中,使用三部分名称在仓库ContosoSalesTable中引用ContosoWarehouse。 在其他数据库或仓库中,标准 SQL 三部分命名约定的第一部分是镜像数据库的名称。
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
镜像成本
对于数据库镜像和打开镜像,Fabric 计算和 OneLake 存储可以释放到基于容量的限制。
- 副本的存储会根据容量大小释放到限制。 镜像为购买的每个容量单位(CU)提供免费 TB 的镜像存储。 例如,如果购买 F64 容量,将获得价值 64 TB 的免费存储空间,专门用于镜像。 如果超出免费镜像存储限制或容量暂停,则 OneLake 存储会计费。 有关详细信息,请参阅 Microsoft Fabric 定价。
- 用于将数据复制到 Fabric OneLake 的后台结构计算是免费的,并且不使用容量。 直接向 OneLake 请求镜像数据使用容量,就像正常 OneLake 计算消耗一样。 使用 SQL、Power BI 或 Spark 查询数据的计算按常规费率收费。
- 只有镜像的初始设置才需要正在运行的 Fabric 容量。
使用镜像数据库数据进行数据工程
Microsoft Fabric 提供了各种数据工程功能,以确保数据易于访问、组织有序且高质量。 在 Fabric 数据工程中,可以:
- 使用 Lakehouse 创建和管理数据作为 Spark
- 设计管道,将数据复制到 Lakehouse
- 使用 Spark 作业定义将批处理/流式处理作业提交到 Spark 群集
- 使用笔记本编写用于数据引入、准备和转换的代码
使用镜像数据库数据的数据科学
Microsoft Fabric 提供了 Fabric 数据科学,使用户能够完成端到端数据科学工作流,以实现数据扩充和业务见解。 可以在整个数据科学过程中完成广泛的活动,从数据探索、准备和清理到试验、建模、模型评分以及预测见解的服务到 BI 报表。
Microsoft Fabric 用户可以访问 Data Science 工作负载。 从那里,他们可以发现和访问各种相关资源。 例如,他们可以创建机器学习试验、模型和笔记本。 它们还可以在数据科学主页上导入现有笔记本。
包含镜像数据库数据的 Direct Lake
Direct Lake 模式可用于 Microsoft Fabric 中的镜像数据库,以便对镜像数据启用高性能查询,而无需数据移动或重复。 创建镜像数据库时,其数据存储在 OneLake 中的 Delta Lake 格式。 此本机格式允许 Power BI 和其他分析工具通过 Direct Lake 模式进行连接,通过直接访问基础文件提供近乎实时的见解。 此集成将镜像的简单性与 Direct Lake 的速度和可伸缩性相结合,可实现快速 up-to日期报告作数据。
镜像数据的保留期
Fabric 中的镜像会持续将现有数据资产复制到 Delta Lake 表格式的 OneLake 中。 为了有效地存储镜像数据并始终准备好进行分析,镜像会自动运行清空,以删除 Delta 日志不再引用的旧文件。
可以根据要求自定义保留设置。 例如,可以选择较短的保留期来减少镜像存储消耗,或延长保留期以利用 Delta 的时间旅行功能进行分析。
对于在 2025 年 6 月中旬之后从 Fabric 门户创建的镜像数据库,默认保留期为一天。 对于旧的镜像数据库,默认值为 7 天。 若要检查或更新保留设置,请在 Fabric 门户中导航到镜像数据库 -> ->Maintenance 选项卡,并指定保留阈值。 还可以通过指定属性通过retentionInDays 对其进行配置。
Fabric SQL 数据库
还可以直接 在 Fabric 门户中的 Microsoft Fabric(预览版)中创建和管理 SQL 数据库 。 基于 Azure SQL 数据库,Fabric 中的 SQL 数据库会自动镜像以进行分析,并允许在 Fabric 中轻松创建作数据库。 SQL 数据库是 Fabric 中用于 OLTP 工作负荷的主数据库,可以与 Fabric 的 源代码管理集成集成。