Databricks 上的 AI 和机器学习

使用马赛克 AI 构建、部署和管理 AI 和机器学习应用程序,这是一个集成平台,可将整个 AI 生命周期从数据准备到生产监视统一。

有关入门的一组教程,请参阅 AI 和机器学习教程

构建生成式 AI 应用程序

开发和部署企业级生成 AI 应用程序,例如微调的大型语言模型、AI 代理,以及检索增强生成。

Feature Description
AI实验室 进行原型设计和测试生成 AI 模型,使用无代码提示词工程和参数调整。
代理砖块 针对常见 AI 用例构建和优化特定于域的高质量 AI 代理系统的简单方法。
基础模型 通过安全、可扩展的 API 提供最先进的 LLM,包括 Meta Llama、Anthropic Claude 和 OpenAI GPT。
Mosaic AI 代理框架 使用 Python 生成和部署生产质量代理,包括 RAG 应用程序和多代理系统。
适用于 GenAI 的 MLflow 使用 AI 支持的指标和全面的跟踪可观测性来衡量、改进和监视 GenAI 应用程序生命周期的质量。
矢量搜索 存储和查询嵌入矢量,并自动同步到 RAG 应用程序的知识库。
无服务器 GPU 计算 使用偏好的框架自定义单节点和多节点深度学习工作负载,以训练和微调自定义模型,并获取最先进的效率、性能和质量。
基础模型微调 使用自己的数据自定义基础模型,以优化特定应用程序的性能。

训练经典机器学习模型

使用自动化工具和协作开发环境创建机器学习模型。

Feature Description
AutoML 使用自动化功能工程和超参数优化,使用最少的代码自动生成高质量的模型。
用于 ML 的 Databricks Runtime 使用 TensorFlow、PyTorch、Keras 和 GPU 支持的预配置群集进行深度学习开发。
MLflow 跟踪 跟踪试验、比较模型性能以及管理完整的模型开发生命周期。
特征工程 使用自动化数据管道和功能发现创建、管理和提供功能。
Databricks 笔记本 协作开发环境,支持 Python、R、Scala 和 SQL for ML 工作流。

训练深度学习模型

使用内置框架开发深度学习模型。

Feature Description
分布式训练 使用 Ray、TorchDistributor 和 DeepSpeed 进行分布式深度学习的示例。
Databricks 深度学习的最佳做法 Databricks 深度学习的最佳实践。
PyTorch 使用 PyTorch 的单节点和分布式训练。
TensorFlow 使用 TensorFlow 和 TensorBoard 的单节点和分布式训练。
参考解决方案 深度学习参考解决方案。

部署和提供模型

使用可缩放的终结点、实时推理和企业级监视将模型部署到生产环境。

Feature Description
模型服务 使用自动缩放和 GPU 支持将自定义模型和 LLM 部署为可缩放的 REST 终结点。
AI 网关 使用使用情况跟踪、有效负载日志记录和安全控制来管理和监视对生成 AI 模型的访问。
外部模型 将 Databricks 外部托管的第三方模型与统一的治理和监视集成。
基础模型 API 访问和查询 Databricks 托管的最先进的开放模型。

监视和管理 ML 系统

通过全面的监视和治理工具确保模型质量、数据完整性和合规性。

Feature Description
Unity Catalog 使用统一的访问控制、世系跟踪和发现来管理数据、功能、模型和函数。
数据湖屋监视 使用自动警报和根本原因分析监视数据质量、模型性能和预测偏差。
MLflow 模型管理 在整个开发生命周期中跟踪、评估和监视生成 AI 应用程序。

将机器学习工作流投入生产环境

使用自动化工作流、CI/CD 集成和可用于生产的管道,以扩展机器学习操作。

Feature Description
Unity Catalog 中的模型 使用 Unity 目录中的模型注册表进行集中治理,并管理模型生命周期,包括部署。
Lakeflow 作业 生成自动化工作流和生产就绪的 ETL 管道,以便进行 ML 数据处理。
Databricks 上的 Ray 使用分布式计算缩放 ML 工作负荷,以便进行大规模模型训练和推理。
MLOps 工作流 使用自动化的训练、测试和部署流水线实现端到端的MLOps流程。
Git 集成 使用无缝 Git 集成和协作开发对 ML 代码和笔记本进行版本控制。