本文总结了 Mosaic AI 模型服务的限制和区域可用性,以及支持的终结点类型。
资源和有效负载限制
Mosaic AI 模型服务施加了默认限制,以确保可靠的性能。 如果对这些限制有反馈,请联系 Databricks 帐户团队。
下表汇总了模型服务终结点的资源和有效负载限制。
| 功能 | 粒度 | 限制 |
|---|---|---|
| 有效负载大小 | 应要求 | 16 MB。 对于为 基础模型、 外部模型或 AI 代理提供服务的 终结点,限制为 4 MB。 |
| 请求/响应大小 | 应要求 | 不会记录超过 1 MB 的任何请求/响应。 |
| 每秒查询次数 (QPS) | 每个工作区 | 200.对于更高的 QPS,请启用 路由优化。 |
| 模型执行持续时间 | 应要求 | 297 秒 |
| CPU 端点模型的内存使用情况 | 每个终结点 | 4GB |
| GPU 终结点模型内存使用 | 每个终结点 | 大于或等于分配的 GPU 内存,取决于 GPU 工作负载大小 |
| 预配的并发 | 每个模型和每个工作区 | 200 并发。 可通过联系你的 Databricks 帐户团队增加。 |
| 开销延迟 | 应要求 | 小于 50 毫秒 |
| Init 脚本 | 不支持 init 脚本。 | |
| 基础模型 API 速率限制 | 每个工作区 | 有关按令牌付费和预配的吞吐量限制的详细信息,请参阅 基础模型 API 速率限制和配额 。 |
网络和安全限制
- 模型服务终结点受 访问控制 保护,并遵循在工作区上配置的与网络相关的入口规则,例如 IP 允许列表和 专用链接。
- 专用连接(例如 Azure 专用链接)仅支持使用预配吞吐量的终结点的模型服务终结点或提供自定义模型的终结点。
- 默认情况下,模型服务不支持指向外部终结点(例如 Azure OpenAI)的专用链接。 支持此功能的评估与实施是按每个区域进行的。 有关详细信息,请联系 Azure Databricks 帐户团队。
- 由于生产部署存在不稳定的风险,模型服务不提供现有模型映像的安全修补程序。 从新模型版本创建的新模型映像将包含最新的修补程序。 有关详细信息,请联系 Databricks 帐户团队。
合规安全配置文件的标准:CPU 工作负荷
下表列出了 CPU 工作负荷上核心模型服务功能支持的合规性安全配置文件符合性标准。
注意
这些符合性标准要求在最近 30 天内生成服务容器。 Databricks 会自动为您重建过时的容器。 但是,如果此自动化作业失败,将显示如下所示的事件日志消息,并提供有关如何确保终结点保持在符合性要求的指导:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
| 区域 | 位置 | HIPAA | HITRUST | PCI-DSS | IRAP | CCCS 中等(保护级别B) | 英国 Cyber Essentials Plus |
|---|---|---|---|---|---|---|---|
australiacentral |
AustraliaCentral | ||||||
australiacentral2 |
AustraliaCentral2 | ||||||
australiaeast |
澳大利亚东部 | ✓ | ✓ | ✓ | |||
australiasoutheast |
澳大利亚东南部 | ||||||
brazilsouth |
巴西南部 | ✓ | ✓ | ✓ | |||
canadacentral |
CanadaCentral | ✓ | ✓ | ✓ | |||
canadaeast |
CanadaEast | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
中央美国地区 | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
ChinaEast3 | ||||||
chinanorth2 |
ChinaNorth2 | ||||||
chinanorth3 |
ChinaNorth3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
EastUS | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
德国西中部 | ✓ | ✓ | ✓ | |||
japaneast |
JapanEast | ✓ | ✓ | ✓ | |||
japanwest |
日本西部 | ||||||
koreacentral |
KoreaCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
墨西哥中心 | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
NorthEurope | ✓ | ✓ | ✓ | |||
norwayeast |
挪威东部 | ||||||
qatarcentral |
卡塔尔中央 | ||||||
southafricanorth |
SouthAfricaNorth | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
东南亚 | ✓ | ✓ | ✓ | |||
southindia |
南印度 | ||||||
swedencentral |
瑞典中心 | ✓ | ✓ | ✓ | |||
switzerlandnorth |
SwitzerlandNorth | ✓ | ✓ | ✓ | |||
switzerlandwest |
瑞士西部 | ||||||
uaenorth |
阿联酋北部 | ✓ | ✓ | ✓ | |||
uksouth |
UKSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
西欧 | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
WestUS | ✓ | ✓ | ✓ | |||
westus2 |
WestUS2 | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
基础模型 API 限制
有关基础模型 API 的详细信息,请参阅:
- 速率限制和配额: 基础模型 API 速率限制和配额 - 包括 TPM 限制、区域可用性和特定于模型的限制
- 合规性和安全性: 基础模型 API 合规性和安全性 - 涵盖符合性标准、数据处理和安全要求
区域可用性
注意
如果您需要在不支持的区域中创建端点,请联系 Azure Databricks 账户团队。
如果工作区部署在支持模型服务的区域,但由不受支持区域的 控制平面 提供服务,则工作区不支持模型服务。 当您尝试在此类工作区中使用模型服务时,您会在错误消息中看到,您的工作区不受支持。 有关详细信息,请联系 Azure Databricks 帐户团队。
有关每个模型服务功能的区域可用性的详细信息,请参阅 模型服务功能可用性。
有关 Databricks 托管的基础模型区域可用性,请参阅 Databricks 上托管的基础模型。