LLD Zabbix LLM alerting

ID	Решение	Обоснование
LLD-ADR-001	Использовать отдельные сервисы `alert-receiver`, `alert-processor-ingest`, `alert-processor-worker`, `audit-api`, `redis`	Соответствует разделению быстрого приема и длительной обработки
LLD-ADR-002	Использовать Redis Streams для основной очереди событий	Нужны consumer group, pending messages, ack/retry и возможность deadletter
LLD-ADR-003	Использовать Redis как кратковременное состояние, audit-хранилище MVP и outbox уведомлений	Соответствует HLD, упрощает MVP и Docker-развертывание
LLD-ADR-004	Включить Redis AOF persistence	Иначе Redis как in-memory-хранилище не обеспечивает требование «принятое событие не должно теряться» при перезапуске контейнера
LLD-ADR-005	Для `High` и `Disaster` применять детерминированную доставку, LLM использовать только как вспомогательный источник текста/диагностики	LLM не должна отменять или подавлять критичные события
LLD-ADR-006	Для `Average` сделать режим конфигурируемым: `mandatory` или `intelligent`	Это прямо требуется ТЗ
LLD-ADR-007	Для LLM-вызовов использовать строгий JSON-контракт ответа и дополнительную валидацию Pydantic	Нужна предсказуемость triage/remediation/correlation
LLD-ADR-008	Для remediation применять post-filter guardrails по запрещенным командам и опасным действиям	Нельзя генерировать инструкции, меняющие состояние продуктивной среды
LLD-ADR-009	Audit log писать поэтапно при каждом значимом действии обработки	Необходимо восстановление полного жизненного цикла события
LLD-ADR-010	Доставку уведомлений реализовать через outbox/retry-механику в Redis	Сбой Matrix/SMTP не должен приводить к потере факта необходимости доставки

Задача	Библиотека
HTTP API	FastAPI
ASGI server	Uvicorn
Валидация моделей	Pydantic v2
HTTP-клиенты	httpx
Redis async client	redis-py asyncio
YAML-правила	PyYAML или ruamel.yaml
Retry policies	tenacity
Логи	structlog + standard logging
Тесты	pytest, pytest-asyncio, httpx AsyncClient
Типизация	mypy, pyright опционально
Линтинг/форматирование	ruff
Конфигурация	pydantic-settings

Severity	Rank
Not classified	0
Information	1
Warning	2
Average	3
High	4
Disaster	5

Поле	Обязательно	Описание
`event_id`	Да	ID события Zabbix
`event_phase`	Да	problem/recovery/update
`severity`	Да	Критичность
`host_name`	Да	Имя хоста
`trigger_name`	Да	Название trigger/problem
`event_clock`	Да	Время события
`raw_payload`	Да	Исходный payload

Параметр	По умолчанию	Описание
`limit`	50	Количество событий
`offset`	0	Смещение
`severity`	null	Фильтр по критичности
`status`	null	Фильтр по итоговому статусу

Назначение	Ключ
Основная очередь событий	`stream:alerts:incoming`
Deadletter событий	`stream:alerts:deadletter`
Audit timeline, опционально общий поток	`stream:audit:events`
Notification outbox	`stream:notifications:outbox`
Notification deadletter	`stream:notifications:deadletter`

Назначение	Ключ	Тип
Карточка события	`audit:event:<correlation_id>`	JSON string или HASH
Timeline события	`audit:timeline:<correlation_id>`	Redis Stream
Индекс event_id → correlation_id	`audit:index:event_id:<event_id>`	SET
Последние события	`audit:index:latest`	ZSET
Индекс по severity	`audit:index:severity:<severity>`	ZSET
Индекс по final decision	`audit:index:decision:<decision>`	ZSET

Назначение	Ключ	Тип	TTL
Dedup принятого события	`dedup:accepted:<event_id>:<phase>`	STRING	`DEDUP_TTL_SEC`
Активный problem по fingerprint	`alert:active:<fingerprint>`	STRING	`STATE_RETENTION_SEC`
Последнее уведомление	`alert:last_notify:<fingerprint>`	STRING/HASH	`SUPPRESS_WINDOW_SEC`
История фаз события	`alert:history:<fingerprint>`	ZSET	`STATE_RETENTION_SEC`
Окно flap	`alert:flap:<fingerprint>`	ZSET	`FLAP_WINDOW_SEC`
Окно correlation	`alert:correlation:<scope>`	ZSET	`CORRELATION_WINDOW_SEC`
Triage cache	`triage:cache:<triage_hash>`	JSON string	`TRIAGE_CACHE_TTL_SEC`
Worker heartbeat	`worker:heartbeat:<worker_id>`	HASH	`WORKER_HEARTBEAT_TTL_SEC`
Attempts stream message	`queue:attempts:<stream_id>`	INTEGER	`QUEUE_ATTEMPT_TTL_SEC`

Назначение	Ключ	Тип
Delivery job	`delivery:job:<delivery_id>`	JSON string/HASH
Retry schedule	`delivery:retry:schedule`	ZSET
Delivery attempts	`delivery:attempts:<delivery_id>`	INTEGER

Severity	Базовое поведение
Disaster	Обязательное уведомление, LLM не может подавить
High	Обязательное уведомление, LLM не может подавить
Average	Зависит от `AVERAGE_POLICY`
Warning	LLM triage + deterministic rules
Information	LLM triage + deterministic rules
Not classified	LLM triage + deterministic rules

Исходное событие	Recovery уведомлять?
Disaster	Да
High	Да
Average mandatory	Да
Average intelligent	Конфигурируемо
Warning и ниже	Да, если исходный problem был доставлен; иначе только audit

Источник	Приоритет
Deterministic YAML rules	1
Topology/service tags	2
LLM fallback	3
No correlation	4

Ошибка LLM	Поведение
Timeout	Для Warning/Average intelligent — notify, если нет deterministic suppress
HTTP 5xx	Notify или audit-only по конфигурации, но не терять событие
Invalid JSON	Одна repair-попытка, затем fallback
Low confidence	Notify
Circuit breaker open	Не вызывать LLM, применять deterministic fallback

Ошибка	Поведение
Timeout	Записать audit, продолжить без enrichment
401/403	Записать audit security error, продолжить без enrichment, поднять health warning
5xx	Retry 1-2 раза, затем продолжить без enrichment
Нет item/trigger	Продолжить с частичным контекстом

Stage	Где фиксируется
`received_by_receiver`	alert-receiver
`validation_failed`	alert-receiver
`normalized`	alert-receiver
`forwarded_to_ingest`	alert-receiver
`received_by_ingest`	ingest
`duplicate_detected`	ingest/worker
`queued`	ingest
`processing_started`	worker
`state_loaded`	worker
`recovery_detected`	worker
`flap_detected`	worker
`suppress_evaluated`	worker
`policy_decided`	worker
`enrichment_started`	worker
`enrichment_completed`	worker
`enrichment_failed`	worker
`correlation_completed`	worker
`llm_triage_started`	worker
`llm_triage_completed`	worker
`llm_triage_failed`	worker
`remediation_completed`	worker
`guardrails_applied`	worker
`notification_selected`	worker
`notification_sent`	worker
`notification_retry_scheduled`	worker
`notification_failed`	worker
`processing_completed`	worker
`processing_failed`	worker
`moved_to_deadletter`	worker

Сервис	Endpoint	Проверки
alert-receiver	`/health/live`	Процесс жив
alert-receiver	`/health/ready`	Доступен ingest
alert-processor-ingest	`/health/live`	Процесс жив
alert-processor-ingest	`/health/ready`	Redis доступен
audit-api	`/health/live`	Процесс жив
audit-api	`/health/ready`	Redis доступен
worker	heartbeat в Redis	Worker жив и обновляет статус

ID	Сценарий	Ожидаемый результат
AT-001	Валидный webhook от Zabbix	`202 Accepted`, событие в `stream:alerts:incoming`, audit `queued`
AT-002	Неверный токен webhook	`401`, событие не попало в очередь
AT-003	Некорректный payload	`422`, событие не попало в очередь
AT-004	Ingest недоступен	Receiver возвращает `503`, ложный `202` не возвращается
AT-005	High event при недоступной LLM	Событие доставлено, audit содержит LLM failure/degraded
AT-006	Disaster event	Обязательная доставка в Matrix и email
AT-007	Average при `AVERAGE_POLICY=mandatory`	Доставка без LLM triage
AT-008	Average при `AVERAGE_POLICY=intelligent`	Применяется LLM triage, результат фиксируется в audit
AT-009	Warning event	Проходит triage, verdict фиксируется в audit
AT-010	Повтор Warning в suppress window	Повтор подавляется, audit содержит suppress decision
AT-011	Частые problem/recovery	Обнаруживается flap
AT-012	Recovery после problem	Recovery связывается с исходным problem
AT-013	Детерминированная корреляция	Child/root определяются по YAML-правилам
AT-014	Нет deterministic correlation	Вызывается LLM fallback при включенной настройке
AT-015	Matrix timeout	Delivery job попадает в retry schedule
AT-016	SMTP permanent failure	После попыток delivery попадает в notification deadletter
AT-017	Worker падает до XACK	Сообщение остается pending и переобрабатывается через XAUTOCLAIM
AT-018	Remediation содержит опасную команду	Команда удаляется guardrails, audit фиксирует удаление
AT-019	Audit by event_id	Возвращается карточка события
AT-020	Перенос на другой Docker host	После изменения `.env` сервис запускается без правки кода

Риск	Комментарий	Мера
Redis без persistence потеряет события при перезапуске	Требование запрещает потерю принятых событий	Включить AOF и volume
LLM вернет невалидный JSON	Типовой риск локальных моделей	JSON schema, repair retry, fallback
LLM предложит опасную команду	Недопустимо по ТЗ	Guardrails deny/allow filters
Matrix token истечет	Уже известная сложность Matrix/MAS/OIDC	Для MVP использовать long-lived token или отдельного service user; ротацию вынести отдельным этапом
Zabbix API недоступен	Enrichment не должен ломать обработку	Partial enrichment + audit warning
Слишком много событий	Redis Stream растет	Retention policy, мониторинг pending, в будущем отдельный broker/storage
Audit в Redis ограничен TTL	Подходит для кратковременного audit MVP	Для долгосрочного аудита добавить PostgreSQL/ClickHouse

¶ LLD решения: интеллектуальная обработка событий Zabbix локальной LLM Qwen3.5:4B

¶ 1. Назначение документа

¶ 2. Исходные документы

¶ 3. Целевые проектные решения LLD

¶ 3.1. Основные решения

¶ 3.2. Границы решения

¶ 4. Логическая схема решения

¶ 5. Контейнеры и ответственность

¶ 5.1. alert-receiver

¶ 5.2. alert-processor-ingest

¶ 5.3. alert-processor-worker

¶ 5.4. audit-api

¶ 5.5. redis

¶ 6. Рекомендуемый стек Python

¶ 7. Структура репозитория

¶ 8. Внутренняя модель данных

¶ 8.1. Severity enum

¶ 8.2. Event phase

¶ 8.3. Нормализованное событие

¶ 8.4. Fingerprint

¶ 8.5. Dedup key

¶ 9. API alert-receiver

¶ 9.1. POST /api/v1/webhook/zabbix

¶ 9.2. Health endpoints

¶ 10. API alert-processor-ingest

¶ 10.1. POST /api/v1/events

¶ 10.2. Health endpoints

¶ 11. API audit-api

¶ 11.1. GET /api/v1/audit/events

¶ 11.2. GET /api/v1/audit/events/{correlation_id}

¶ 11.3. GET /api/v1/audit/by-event/{event_id}

¶ 11.4. GET /api/v1/workers

¶ 12. Redis: очереди, ключи и структуры

¶ 12.1. Redis Streams

¶ 12.2. Audit keys

¶ 12.3. State keys

¶ 12.4. Notification outbox keys

¶ 13. Обработка события: общий pipeline

¶ 14. Worker Runtime

¶ 14.1. Основной цикл

¶ 14.2. Retry события

¶ 14.3. Reclaim pending messages

¶ 15. Processor Service

¶ 15.1. Основная функция

¶ 16. Policy Engine

¶ 16.1. Режимы обработки по severity

¶ 16.2. Конфигурация AVERAGE_POLICY

¶ 16.3. PolicyDecision

¶ 16.4. Правила критичных событий

¶ 17. Suppress logic

¶ 17.1. Назначение

¶ 17.2. Конфигурация config/suppress.yaml

¶ 17.3. Алгоритм

¶ 18. Flap detection

¶ 18.1. Назначение

¶ 18.2. Конфигурация config/flap.yaml

¶ 18.3. Redis structure

¶ 18.4. Алгоритм

¶ 19. Recovery detection

¶ 19.1. Назначение

¶ 19.2. Redis structure

¶ 19.3. Поведение доставки recovery

¶ 20. Correlation Engine

¶ 20.1. Назначение

¶ 20.2. Источники correlation

¶ 20.3. Конфигурация config/correlation.yaml

¶ 20.4. Correlation result

¶ 20.5. Алгоритм deterministic correlation

¶ 20.6. Ограничение LLM correlation

¶ 21. LLM-интеграция

¶ 21.1. Способ интеграции

¶ 21.2. Общие требования к LLM-вызовам

¶ 21.3. Triage JSON schema

¶ 21.4. Triage prompt

¶ 21.5. Безопасная деградация triage

¶ 22. Remediation

¶ 22.1. Remediation JSON schema

¶ 22.2. Разрешенные действия

¶ 22.3. Запрещенные действия

¶ 22.4. Guardrails filter

¶ 5.1. `alert-receiver`

¶ 5.2. `alert-processor-ingest`

¶ 5.3. `alert-processor-worker`

¶ 5.4. `audit-api`

¶ 5.5. `redis`

¶ 9.1. `POST /api/v1/webhook/zabbix`

¶ 10.1. `POST /api/v1/events`

¶ 11.1. `GET /api/v1/audit/events`

¶ 11.2. `GET /api/v1/audit/events/{correlation_id}`

¶ 11.3. `GET /api/v1/audit/by-event/{event_id}`

¶ 11.4. `GET /api/v1/workers`

¶ 16.2. Конфигурация `AVERAGE_POLICY`

¶ 17.2. Конфигурация `config/suppress.yaml`

¶ 18.2. Конфигурация `config/flap.yaml`

¶ 20.3. Конфигурация `config/correlation.yaml`

¶ 24.2. Routing config `config/routing.yaml`

¶ 26.1. `.env.example`

¶ 26.2. `config/app.yaml`