构建可扩展的通知和警报系统 🔥🚀

介绍

本文探讨了Middleware公司基于规则的告警和通知系统的开发过程。该系统名为Playbook，旨在当某些指标超过预定义的阈值时通知客户。

这个想法💡

我加入Middleware担任全职软件工程师后的首要任务之一，就是构建一个名为 Playbook 的东西。

该操作手册作为一个基于规则的警报系统，允许工程经理在特定指标超过设定阈值时收到通知。例如：

如果开发人员在过去一周内花费超过 50% 的时间用于修复错误，请发送电子邮件。
如果团队上个月的平均 PR 返工时间超过 6 小时，请发送 Slack 消息。

应用程序流程

设置规则和频率：用户为其团队定义警报规则，并选择规则检查的时间范围。
违规处理：系统从数据库中读取规则，根据这些规则验证指标，并生成违规通知。
发送通知：根据用户设置的时区向其发送通知。

假设

用户和团队等实体是存在的。
服务可以提供指定时间范围内用户或团队的指标值。
通知分发器可以通过 Slack/电子邮件发送通知。
每次违规行为仅发送一次通知。

底层设计

该系统采用多种模型，包括剧本模型、剧本规则模型、剧本规则违规模型和通知模型。这些模型分别处理规则创建、违规事件生成和通知分发。

功能：

剧本核心：将剧本创建为规则的聚合体。每条规则都包含一些设置数据和执行频率。
违规处理程序：根据用户设定的规则和规则节奏识别违规行为。
通知处理器：根据违规行为创建通知。
通知分发器：通过不同渠道发送通知。

型号：

剧本和剧本规则：

战术手册是由球队经理制定的。
每个操作手册都针对每个指标制定了一系列规则，并设定了阈值。



class Playbook(){
    team_id: uuid,
    created_by: uuid,
    created_at:date_time,
    updated_at:date_time,
    updated_by: uuid,
    rules: set(PlaybookRule), (set hashes based on rule type),
}

class PlaybookRule(){
    rule_type: PlaybookRuleType(ENUM),
    rule_data: {}
    alert_cadence: PlaybookRuleAlertCadence(ENUM),
    users_to_notify: set(uuid),
    is_active: boolean
}

class PlaybookRuleType(Enum):
    CYCLE_TIME= "CYCLE_TIME"
    INCIDENT_COUNT = "INCIDENT_COUNT"

提醒频率是指用户希望接收这些通知的频率。
每日频率：违规情况每日计算，我们根据用户时区每日发送通知。
每周频率：违规情况根据每周数据进行计算，通知于每周一发送。
两周一次：违规情况根据过去两周的数据进行计算，每隔一周的星期一发送通知。
按月频率：违规次数按月平均值计算，通知于每月 1 日发送。



class AlertCadence(Enum):
    DAILY="DAILY"
    WEEKLY="WEEKLY"
    TWO_WEEKS="TWO_WEEKS"
    MONTHLY="MONTHLY"

剧本泄露：

触发违规：每当指标超过或低于设定的阈值时，就会生成 PlaybookBreach。
关联：每个 PlaybookBreach 都与一个 playbook 和一个规则类型相关联，为违规行为提供上下文。
规则数据包含：为了适应未来可能的规则变更，每次违规事件都会包含生成时的规则数据。这确保了历史数据的准确性和一致性，即使未来的规则发生修改。



class PlaybookRuleBreach(){
    playbook: uuid,
    rule_type: uuid,
    rule_data: {}
    team_id: uuid,
    alert_cadence: PlaybookRuleAlertCadence(ENUM),
    metric_value: float
}

通知：

违规通知：一旦发生违规行为，即可生成通知并发送给用户。
防止重复：为避免重复通知，每个通知都分配一个幂等键，以确保数据库中的唯一性。
通知模型灵活性：该通知模型设计灵活，可兼容 Playbook 以外的其他服务。因此，每条通知都可以按类型分类，以便于组织和处理。



class Notification(){
    receiver_id: uuid,
    idempotency_key: str,
    notification_type: NotificationTypes(ENUM),
    due_at: date_time,
    queued_at: date_time,
    sent_at: date_time
}