为 Azure 本地设置日志警报

适用于:Azure Local 2311.2 及更高版本

本文介绍如何为 Azure 本地系统设置日志警报:使用用于 Azure 本地的见解,以及预先存在的示例日志查询,例如平均节点 CPU、可用内存、可用卷容量等。

有关如何设置指标警报的信息,请参阅 为 Azure 本地设置指标警报。

花些时间观看视频演练,了解如何收集新日志、自定义 Insights 工作簿,以及使用日志创建警报:

先决条件

在开始之前,请确保满足以下先决条件:

  • 有权访问已部署和注册的 Azure 本地系统。
  • 必须已在群集上启用 Insights。 启用 Insights 会将群集配置为在 Log Analytics 工作区中收集所需的日志。

使用 Insights 设置日志警报

重要

不建议将 Insights 用于高严重性警报。 收集日志可能需要 15 分钟。

按照以下步骤使用 Insights 设置日志警报。 确保已查看并完成 先决条件

  1. 在 Azure 门户中,导航至或搜索 Monitor 并选择 Azure Local

  2. 选择某个选项卡以查看资源的运行状况。 例如,选择“节点以查看群集中节点的运行状况。

  3. 自定义工作簿并对其进行编辑,直到出现蓝色的“日志视图”图标。 选择该图标以查看和编辑查询。

    监控资源及其状态的截图。

  4. 加载查询后,选择“+ 新建警报规则”。

    屏幕截图显示群集的“新建警报规则”以及创建新警报的方法。

  5. 在警报界面中,你可以设置警报条件、操作等。 有关详细信息,请参阅日志查询结果警报操作和详细信息

    创建新警报时要定义的项的屏幕截图。

使用示例日志查询设置警报

可以使用 Azure 门户中提供的预先存在的日志查询开始监视 Azure 本地系统并为其设置警报。 这些查询可帮助你检查和监视系统的运行状况。

按照以下步骤使用示例日志查询设置日志警报。 确保已查看并完成 先决条件

  1. 在Azure 门户中,浏览到 Azure 本地系统资源页,然后选择要使用示例日志查询监视的群集。

  2. 在群集的“概述”页上,选择“JSON 视图”。

    “JSON 视图”中用于查找 ClusteArmId 的链接的屏幕截图。

  3. 从“资源 ID”框中复制 ClusterArmId 详细信息。

    用于复制 ClusteArmId 信息的资源 JSON 页面的屏幕截图。

  4. 在 Azure 门户中,导航到或搜索“监控”,然后选择“日志”。

  5. 选择“+ 添加筛选器”以添加资源类型筛选器。

  6. 对于已填充的 Azure Local 系统示例日志列表,请选择“Azure Local”。

    屏幕截图显示 Azure Monitor 日志工作区以及如何访问示例查询。

  7. 选择“加载到编辑器”以打开查询工作区。

  8. 将与群集资源链接的日志的范围设置为“日志分析工作区”。

  9. ClusterArmId信息粘贴到查询的where ClusterArmId =~部分,以查看与集群相关的结果。

    日志分析工作区和群集 ARM ID 查询的屏幕截图。

  10. 选择“运行”。

显示信息后,可以检查日志并根据结果创建警报。 有关详细信息,请参阅日志查询结果警报操作和详细信息

为多个群集设置警报

若要设置新查询或更改现有查询以适应多个群集 ClusterArmId,请在查询中添加 | where ClusterArmId in~ 子句。 请包含你要在查询中使用的每个群集的 ClusterArmId。 例如: | where ClusterArmId in~ ('ClusterArmId1', 'ClusterArmId2', 'ClusterArmId3')

用于显示多个群集的日志的查询屏幕截图。

日志查询结果

添加日志后,通过针对存储群集日志的工作区运行查询来确认获得预期结果。 如果未获得预期的结果,请更正并重新运行日志查询。

创建新的警报规则时,必须设置条件详细信息以汇总查询结果。 这些详细信息基于三个类别:度量、按维度拆分和警报逻辑。 在警报详细信息中填写以下组件:

  • 度量:用于设置警报的值。 默认情况下,它仅接受数值。 将值转换为整数,并从下拉列表中选择正确的值。
  • 聚合类型:确保可以收到警报,即使只有一个群集内存值符合指定的值。 对于多个群集上的警报,需要将聚合类型设置为最大值,而不是平均值或总数。
  • 资源 ID 列:根据其他值拆分警报度量值。 若要获取群集上的警报,请使用 clusterarmID 或设置节点的警报,请使用 _resourceID。 检查日志查询中的值名称是否准确。
  • 维度名称:进一步拆分警报度量。 例如,若要获取每个节点的警报,请选择 。Nodename
    • 设置警报时,下拉菜单中不一定会显示所有值。 选中“包括所有未来值”复选框,以确保在群集中的多个节点上设置相同的警报。
  • 阈值:根据设置的值提供通知。

在此示例中,当聚合类型为“最大值”的度量值 Memoryusageint 达到阈值“15 分钟”时,你将收到警报。

要指定的日志查询详细信息的屏幕截图。

设置详细信息后,可以查看警报准确性条件。

要设置的警报条件的屏幕截图。

警报操作和详细信息

若要确定如何接收群集警报的通知,请如图所示使用“操作”选项卡。 可以创建新的操作组,或者为现有操作组设置警报规则。 可以选择通过电子邮件、事件中心等接收通知。

操作组操作选项的屏幕截图。

设置作后,“ 详细信息 ”选项卡允许设置警报严重性、名称、说明和区域。 选择“查看 + 创建”以最后一次检查所有警报设置并创建警报。

警报操作详细信息的屏幕截图。

设置警报后,可以在“警报”选项卡中监视警报规则、操作组等。

监视警报的屏幕截图。

日志收集频率

默认情况下,每小时生成一次日志。 若要检查日志收集频率,请使用以下 PowerShell 命令:

get-clusterresource "sddc management" | get-clusterparameter

若要更改本地计算机上的日志生成频率,请更改 CacheDumpIntervalInSeconds 日志收集参数。

下面是日志记录频率设置为 15 分钟的示例。

get-clusterresource "sddc management" | set-clusterparameter -name "CacheDumpIntervalInSeconds" -value 900

注意

若要收集所有日志,请不要将频率降低到小于 15 分钟。

后续步骤

了解如何创建 Azure Monitor 警报规则