NOC 與值班維運
將送達人類的警報量減少約 80%,讓 L1 工程師停止點擊「確認」,開始修復問題。
多來源警報關聯
將來自 payment-api 和 checkout-worker 等服務的相關症狀合併為單一事件,減少來自多個監控工具的重複警報。
根本原因分析
在數秒內自動生成 RCA 初稿(例如:「遷移後 users.email 缺少索引」),加速問題分類。
SRE 團隊的事件管理
提供即時儀表板,顯示已關聯事件、未結事件和活躍事件,並附有嚴重性等級(P1、P2、P3)。
自託管合規
透過 Docker 映像檔進行本地部署,符合 DPDP/GDPR 資料隱私要求。
LLM 驅動 RCA 的 Beta 測試
與 10 個設計夥伴進行封閉測試,為早期採用者提供 60 天免費使用。
警報關聯與去重
自動將來自多個來源的 47 個警報分組為一個事件,在 Beta 租戶中減少約 92% 的噪音。
LLM 撰寫的根本原因分析 (RCA)
使用 Claude 分析跨服務的遙測資料,並生成根本原因摘要(例如:「自 02:41 UTC 起查詢 p99 上升 14 倍」)。
多來源 Webhook 接收
透過 Webhook 支援 Grafana、Datadog、PagerDuty、Prometheus 和自訂 JSON 警報來源。
自託管部署
透過 Docker 映像檔運行,讓團隊完全掌控資料與合規性。
即時事件儀表板
顯示即時指標,例如已接收警報數、事件總數、未結事件和活躍事件,並附有嚴重性標籤。
約 80% 噪音減少
減少送達人類的警報量,內部測試驗證可處理每天 10,000+ 個警報。
L1 分類時間 < 1 分鐘
自動收集的上下文資訊能加快首次回應速度,將 MTTR 壓縮 4 倍。
零噪音喚醒
僅有可操作的事件才會通知值班工程師,消除誤報。
Saneops 是一個自託管的 AIOps 平台,可關聯並去重來自 Grafana、Datadog 和 PagerDuty 的警報,使用 LLM 生成 RCA 初稿,並將到達人類的警報量減少約 80%。
分类:自動化
訪問連結:https://saneops.in/
标签:自託管AIOps、警報關聯、根本原因分析生成、事件管理、可觀測性