Что реально изменилось в AI-видеонаблюдении за 2022–2026 годы
2026-05-18 17:44
За четыре года индустрия видеонаблюдения с ИИ совершила тихий, но радикальный скачок. То, что раньше требовало серверных GPU и команд разработчиков, сегодня работает на коробке за $249. А главное — изменилась сама логика построения систем: теперь вы не обучаете детектор «оставленной сумке», а просто пишете текстовый запрос.
Ниже — три ключевых изменения, эталонный конвейер 2026 года, экономика edge‑против‑облака и честные советы, как не купить «кота в мешке».
Три главных изменения с 2022 по 2026 год
1. Детекция стала сверхбыстрой и «карманной»
YOLO v11 на Jetson Orin Nano Super (всего $249) выдает **>30 FPS в 1080p** с mAP ~50. Два года назад такие показатели были доступны только на дискретной видеокарте. Благодаря этому AI-анализ переехал на периферию.
2. Отслеживание объектов перестало «терять» ID в толпе
Алгоритмы ByteTrack и BotSORT преодолели психологический барьер: теперь многообъектное отслеживание надёжно работает в магазинах, аэропортах и на стадионах, даже при сильных перекрытиях.
3. Визуально-языковые модели (VLM) стали практичным инструментом
Вместо того чтобы собирать датасет и обучать классификатор для сценария «кто-то оставил рюкзак», вы пишете запрос на естественном языке. Это меняет подход к обнаружению аномалий — от программирования к описанию.
Что не изменилось (и не изменится скоро)
- Камеры всё ещё работают по RTSP/ONVIF.
- У клиентов полно устаревших систем, интеграторы по-прежнему зарабатывают и теряют деньги на ложных срабатываниях.
Эталонный конвейер AI-видеонаблюдения 2026 года
Каждая промышленная система, которую разворачивают, состоит из пяти одинаковых этапов. Реализация варьируется, но структура — нет.
1. Приём данных: RTSP, ONVIF, WebRTC, GB/T 28181
Большинство IP-камер используют RTSP и ONVIF (профиль S/T для PTZ). Современные веб-диспетчерские всё чаще применяют WebRTC — задержка <500 мс. Для Азиатско-Тихоокеанского региона обязателен стандарт GB/T 28181.
На этом этапе закладывается логика переподключения, backpressure и метрики здоровья потока. Скучно? Да. Но именно из-за кривого NAL-модуля падают системы с 500 камерами.
2. Обнаружение: YOLO v11, RT-DETR или спецмодели
По умолчанию — YOLO v11:
- Nano: 39.5 mAP, 1.55 мс (TensorRT, T4), идеален для Jetson Orin Nano Super.
- XL: 54.7 mAP на COCO — когда точность важнее скорости.
Для плотных сцен и мелких объектов лучше RT-DETR или DINO, но они в 2–4 раза прожорливее.
Для задач типа «огонь, дым, каска, оружие» — дообучаете YOLO на 5–15 тыс. изображений из домена.
3. Трекинг: ByteTrack, BotSORT, StrongSORT
ByteTrack — выбор по умолчанию: 77.3% MOTA на MOT17, >170 FPS на обычном GPU, не требует ReID-модели.
BotSORT — добавляет лёгкую ReID и даёт +2–4% MOTA в толпе. Стадионы, аэропорты.
StrongSORT — когда нужно криминалистическое качество и переключение между камерами (терпим задержку).
Ошибка в выборе трекера удваивает FPR, и никто не заметит, пока оператор не взвоет.
4. Инференс (причина тревоги): правила, модель аномалий или VLM
Обнаружения и треки — это ещё не события. Их превращает в алерт этап рассуждения.
- Низкий риск → механизм правил (зона + время + класс).
- Средний риск → модель аномалий (обучена на UCF-Crime, ShanghaiTech).
- Высокий риск → VLM (Qwen2-VL, Florence-2, Gemini) отвечает на вопросы на естественном языке: «Кто-то лежит в проходе?» и выдаёт краткое проверяемое обоснование. Это требование Закона ЕС об ИИ — никаких «чёрных ящиков».
5. Доставка: алерты, клипы, дашборды, API
UI оператора — это и есть продукт. Push-уведомления, параллельное видео, ранжирование по серьёзности и кнопка «Ложное срабатывание» — с обратной связью, которая дообучает модель.
API для интеграции с SIEM/SOC (Splunk, QRadar, Sentinel) и стратегия хранения, соблюдающая local data laws
Что на самом деле означает «обнаружение аномалий» в 2026 году
Слово «аномалия» — это большая мусорная корзина. В промышленной системе 2026 года оно распадается на пять конкретных типов:
1. Аномалии объектов— машина в пешеходной зоне, бесхозная сумка >90 сек. Детекция+ правила.
2. Аномалии поведения — длительная неподвижность, толпа, бег, драка, падение. Модели действий (SlowFast, MViT) или VLM с промптом.
3. Аномалии траектории — движение против эскалатора, странный маршрут по складу. Трекер + модель траектории.
- Производство — СИЗ, зоны без автопогрузчиков, заторы на линии, эргономика.
- Транспорт и логистика — забытые предметы, двор склада, порт, простой техники.
- Здравоохранение — падения в палатах, контроль доступа, детекция потока посетителей
- Безопасность и правопорядок — центры защиты детей, комнаты допросов.
- Умные здания — парковка, ночные доступы, occupancy planning.
Данные решают всё (намного больше, чем архитектура)
Лучшая модель на плохих данных проигрывает средней модели на хороших данных.
Резюме: видеонаблюдение 2026 — это уже не «просто камеры»
Сегодня AI-видеонаблюдение — это инженерия данных, выбор правильного трекера, экономика edge и понятность пользователю. Победители — те, кто перешёл от «у нас есть нейросеть» к честным цифрам, времени обнаружения и стоимости обработанного события.
Если вы строите новую систему — начинайте с таксономии аномалий и пилота на 10 камерах. Если выбираете вендора — требуйте ответы по edge-развёртыванию. И помните: качество вашей модели определяется не архитектурой, а стратегией работы с данными.