Привет.
Бывает так, что очень интересные технологии всплывают в деловой прессе, а вместо их внятного описания видишь плохо скрытые смешки. Мол, раньше у нас было распознавание лиц, а теперь все настолько грустно, что ударились в распознавание силуэтов людей. Звучит примерно так, что вчера еще пользовался iPhone, а сегодня пересел на бюджетный Android. Плохо скрытое пренебрежение проступает сквозь текст, но главное, что обычный читатель не может понять, зачем это нужно и почему такая технология в принципе может появиться. Попробуем вместе разобраться в этом.
У всех на слуху технология распознавания лиц, она прекрасно работает в разных условиях и хорошо себя зарекомендовала в той же Москве, количество квартирных краж в городе постоянно снижается. Зависимость от числа камер прямая, в столице сегодня уже более 213 тысяч камер, по данным мэрии, и их количество продолжает расти. Камеры стоят на дорогах, во дворах, а также на подъездах. Их характеристики постоянно меняются, они получают большее разрешение и даже системы бизнес-аналитики, примерно такие же, как в розничных магазинах, — там они умеют учитывать число посетителей, то, чем те интересовались, что делали продавцы и еще десятки других параметров.
Технические требования к распознаванию лица человека достаточно жесткие, вам нужна картинка хорошего качества, читай — камера должна дать видео в разрешении, которое позволит это сделать. И тут начинается первая проблема для города — такие камеры стоят дороже, чем те, что имеют низкое разрешение, получается, что в условиях любого реального бюджета скорость разворачивания камер упирается в наличие денег. А ведь есть еще необходимость обслуживать эти камеры!
С этой задачей впервые столкнулись в Китае и Израиле, чем больше камер высокого разрешения вы ставите, тем большие вычислительные мощности для обработки информации с них вам нужны. Технически этот вопрос можно решить разными способами, например, в Китае создают камеры, имеющие собственные вычислительный блок, они анализируют базу разыскиваемых людей локально, сверяют лица с теми, что занесены в память. Такая камера стоит дорого, поэтому следующей итерацией стало создание локальных сетей из камер, на каждые несколько десятков камер добавляется мини-сервер, что отвечает за обработку данных и дальше передает самое интересное в облако, в большую систему. Нагрузка на сети передачи данных снижается, но стоимость такой системы для большой страны неподъемная, использовать ее массово во всех точках присутствия невозможно. Поэтому в городах выделяют отдельные важные объекты. Например, в аэропортах, где безопасность должна быть на максимальном уровне, вся система выстроена вокруг работы в режиме реального времени, и она стоит очень дорого. Но при этом предлагает и другие плюсы — персонализацию объявлений на экранах, когда вы подходите к ним и смотрите на информацию о своем рейсе. Не нужно его искать глазами, табло определит вас и подсветит нужные вам данные самостоятельно. Кажется, что это фантастика, но она уже возможна, и та же Huawei много лет строит такие системы в Китае.
Почитайте материал о таких системах, они производят неизгладимое впечатление, если не знаешь о том, что такие чудеса существуют в нашем мире.
Проблема тут только одна, такие системы стоят дорого и очень дорого. Отсюда необходимость экономить ресурсы, закупать камеры с низким разрешением. Это, в свою очередь, означает, что качество распознавания лиц падает, растет число ошибок. Каждое ошибочное распознавание выливается в деньги, задействуются различные протоколы, например, задержание разыскиваемого преступника. Но оказывается, что человек таким преступником не является, а на его поимку тратят немалые деньги, и главное, растет число ошибочных реакций системы. И это, конечно же, никого не может удовлетворить.
Давайте посмотрим на задачу безопасности в городе с точки зрения определения потенциальной угрозы, например, на улице появился человек с ружьем. Система, выстроенная вокруг распознавания лиц, может иметь дополнительные паттерны, определять такой тип угрозы. Но это дополнительная задача аналитики картинки, и с ней такая система может не справиться, в любом случае нужна программа, которая умеет работать с силуэтами, так как это принципиально другая задача.
Давайте посмотрим на задачу шире, подключим камеры, которые не умеют качественно распознавать лица, но могут работать с силуэтами. У нас резко расширяется пространство возможностей, так как таких камер можно установить больше, а они могут чередоваться с камерами высокого разрешения в ключевых точках. Мы снижаем общую стоимость системы, но при этом не жертвуем качеством распознавания и безопасностью. Фактически комбинируя разного уровня железо, получаем лучшее качество контроля над окружающим миром.
Трагедии в казанской школе могло не случиться, если бы такие камеры стояли на улицах, они смогли бы определить стрелка, который идет по улице с ружьем. Затем подключились бы камеры высокого разрешения, параллельно был бы выстроен маршрут, по которому он идет, а полиция имела бы минут пять, чтобы отреагировать и остановить его. Напомню, что тогда погибли девять человек, тридцать два получили ранения. И всего этого могло не произойти, если стрелка остановили бы на подходе к школе. Рассчитывать на людей в таких делах точно не стоит, подобные угрозы должны распознавать автоматические системы, человек с ружьем в руках на улице города — это всегда прямая и неприкрытая угроза.
Камеры и безопасность — это уже некий стереотип, вокруг которого строятся презентации многих компаний. Но давайте посмотрим на систему бизнес-аналитики, которая может быть полезна для компаний. Возьмем транспорт как таковой и его остановки. Нужно ли распознавание лиц в моменте? Точно нет! Необходимо скорее подсчитать число пассажиров, выделить количество инвалидов на колясках, если таковые есть. Водитель автобуса получит сообщение о том, что на такой-то остановке посадки ожидает инвалид, будьте внимательны. Придумать сценарии применения для таких данных не составит труда, их воз и маленькая тележка.
Силуэт человека — это временный идентификатор, он может меняться в зависимости от одежды, времени года и так далее. И в этом аспекте такие системы способны обеспечить приватность, которой многие так жаждут. Например, приходя в развлекательный центр, можно внести свой силуэт в систему, чтобы проходить куда-то без барьеров, точно знать, где находятся ваши близкие или дети. Тут же возможен анализ не только силуэта, но и вашей походки. Но главное, что этот идентификатор вы сами можете легко “разрушить”, меняете одежду, и на следующий день вы “новый” человек для подобной системы. Вот она, приватность, в которой никто не заносит ваше лицо в базу данных.
Комбинация распознавания лиц и силуэтов дает намного более широкие возможности для любой системы наблюдения. Приведу такой пример — кто-то украл ваш велосипед, но на камерах не видно лица, картинка размыта. Камеры могут отследить маршрут человека по силуэту, рано или поздно он попадет в поле зрения камеры с высоким разрешением, где определят его личность. Сегодня такая задача нерешаема, если вор избежал камеры высокого разрешения.
Для разработчиков систем наблюдения с распознаванием силуэтов достаточно картинки с любой камеры, она может быть черно-белой или цветной, снятой под разными углами. Точность распознавания — минимум 90%, причем со временем она будет расти. Сегодня можно сбить систему тем, что вы возьмете в руки какой-то предмет, ваш силуэт изменится. Но есть понятные способы, как решать эту проблему, вопрос носит исключительно технический характер.
Теперь давайте взглянем на вопрос с точки зрения вычислительной мощности, нужной для обработки силуэта и распознавания лиц. Количество контрольных точек при анализе силуэта на порядок меньше, чем для отдельного лица. Грубо говоря, на одно лицо уходит как минимум столько же энергии и вычислений, сколько на распознавание десятка силуэтов. Экономика в этом случае понятна, и она складывается в пользу работы с силуэтами, тем более что во многих задачах, где нет необходимости точно знать, кто перед вами, и такой системы будет довольно.
В России NTechLab активно разрабатывает систему распознавания лиц, и она работает на отлично, с 2019 года компания также работает над распознаванием силуэтов. И это комплексное решение, которое необходимо, чтобы экономить деньги и строить комбинированные системы. Софт позволит добиваться качественно иных результатов и быстрее покрывать города системой видеонаблюдения.
Опасения, что за нами будут следить, есть у множества людей, и они не беспочвенны. Наша задача как общества — сделать так, чтобы системы были прозрачны и применялись только в определенных условиях, нужно избежать всех сценариев неправомочного их использования. Я верю, что это не просто возможно, а именно так и будет происходить, хотя учиться мы будем на собственных ошибках. Хотите вы того или нет, системы наблюдения будут эволюционировать, и то, что они будут становиться вот такими, недорогими и эффективными, — огромный плюс. Изучая каждую такую технологию, всегда нужно держать в уме стоимость железа и цену вычислений. Насколько быстрее сможет работать система, что даст качественный прирост для определения заложенных ситуаций. Вопрос сейчас стоит именно об этом, и то, что в России сильна разработка таких систем, мне видится однозначным плюсом. В будущем ни одна страна мира не сможет избежать их применения во всех сферах, так как это удобно и никакой угрозы жизни людей не несет — вопрос того, какие правила устанавливать для использования подобных систем.
Вы продолжаете бояться массовой слежки? Или изменили мнение за последние годы?
"Наша задача как общества — сделать так, чтобы системы были прозрачны и применялись только в определённых условиях, нужно избежать всех сценариев неправомочного их использования" — в тоталитарной стране, к которой мы почти пришли, от общества ничего не зависит, давайте не будем себе льстить. Не согласен? Ну держи новый закон, за несогласие лови 15 лет. Вот и вся задача, вот весь выбор — либо смирись с позицией государства, либо получай 15 лет, ну либо можешь (пока, хрен с тобой, предатель) уехать. Так что не очень понятно, о каком обществе и вере говорит автор
Vlad54321, А с какой стати кто-то должен уезжать из собственной страны? С какого потолка взята цифра? Почему Вы считаете, что пусть даже 2% населения РФ можно игнорировать? Для справки 2% населения России это уже около 3 миллионов граждан
Vlad54321, Ого, а кто Вы такой, чтобы распоряжаться жизнями, решать судьбы трёх миллионов человек? Мне кажется Вам бы со своей для начала разобраться, а то такое впечатление складывается, что это Украина "освободила" Воронеж, а не Россия Мариуполь или Херсон
>Трагедии в казанской школе могло не случиться, если бы такие камеры стояли на улицах, они смогли бы определить стрелка, который идет по улице с ружьем. Затем подключились бы камеры высокого разрешения
Ага, которых там нет, и не будет, ибо дорого
>а полиция имела бы минут пять, чтобы отреагировать
чего абсолютно недостаточно. Я уже молчу о том, что он мог прийти не с ружьём, а с кухонным ножом.
> она работает на отлично
Я там со свечкой не стоял, но когда читаю данный мем, то понимаю что ни черта там не работает.
Систему распознавания силуэтов пытаются нам (обществу) продать как решающую проблемы системы разпознавания лиц которая работает на отлично. Парадокс 🙂
Дальше эта силуэтомерка будет давать свои ошибки, типа несу я тубус с ватманом, а меня принимают околоточные как человека с гранатометом, хорошо если еще не убивают. Будет создана новая прогрессивная система решающая проблемы этой.
И эта музыка будет вечной… До тех пор пока мотивация — а жене колечко? — будет доминирующим стимулом…
kinda66, Назовите хоть одно государство где от общества хоть что то зависит?
Я думаю американское общество совсем не хочет чтобы путин повышал им цены, но общество бессильно, потому что от него ничего не зависит 🙂
мимoпроходил, Узко мыслите: будет подлетать дрон и шарашить вас электротоком! Ну, или газ распылять. Если много людей с тубусом — гранату скинет =)
Vlad54321, А автор поста мудро не написал какую страну имеет в виду 😉 Так-то в ближайшем будущем про любую такой коммент подойдет 🙂
Кстати, даже в тюрьму сажать не надо: закенселил человека и пущай деградирует, диссидент поганый =)
Тупо в оружие ставить неудаляемые NFC-метки и устройства их сканирующие: достал из сейфа — у участкового СМСка пришла. Из дома вышел — еще одна. Ну и далее по списку хоть на каждом столбе считывающие устройства вешать. Увы, не решается проблема нелегального оружия, но хоть что-то.
Эльдар, Вы хоть одну систему распознавания сами подняли?
Ну или хоть раз настраивали?
Нет?
А знаете почему это видно?
По вашему дилетантскому подходу.
Вы не просто глупые слова пишете, вы со всей серьезностью говорите вселенской глупости вещи.
И мало того, Вы даже этого не осознаете, в силу своей низкой компетенции! (Эффект Даннинга-Крюгера во всей красе.)
Не разбираясь в основах как работает конкретная технология, невозможно делать правильные выводы, а уж тем более писать аналитические статьи!
Проверочный вопрос для Вас — "__в чём разница между свёрточной и не свёрточной нейросетями, и как оно повлияет на выходную реакцию тестовой обрабатываемой картинки__"?
Я со смехом вспоминаю Вашу статью про Далли2, где вы просто понабрали скриншотов в интернете, и написали текст от первого лица, как будто Вы сами генерировали эти презентационные изображения.
Так "спалиться"ворованными картинками — это еще надо постараться!
"…они смогли бы определить стрелка, который идет по улице с ружьем. Затем подключились бы камеры высокого разрешения…"
Во-первых ходить с ружьем не преступление (я не знаю всех деталей того случая и пониманию что ограничение на ношение есть), во-вторых уже сейчас, если проследить путь стрелка, было куча теоретических возможностей его остановить. Добавили еще одну теоретическую.
"…человек с ружьем в руках на улице города — это всегда прямая и неприкрытая угроза."
Самолично провожал отца в гараж, когда он ехал на охоту. Ружье нес в чехле за плечом.
===============
По поводу контуров. Если раньше нужно было вычислить хеш/вектор лица и сравнить его с БД — работа сложная, но точечная. В вашем сценарии, если я правильно понял, придется организовать оперативную связь между камерами для передачи контура эстафетой, что еще тяжелее. Иначе вообще не имеет смысла. Проще записывать в хранилище весь поток и потом анализировать его по факту происшествия.
Короче, притягивание за уши или натягивание на глобус.
ВАМ НЕ НАДО ЭТО ЗНАТЬ, Недооцениваете количество охотников. Его затрахает этими СМСками. И два вопроса: какую проблему это решает, он что следить будет за этим человеком? и за чей счет банкет?
Lecron, Кое кто просто не знает законов, особенно в части хранения и ношения гладкоствольного и охотничьего оружия.
Но давайте простим это Эльдару!
Он многого в этой жизни не знает, в особенности законы действующие в стране, и ИТ-стандарты, действующие в организациях.
Но зато всегда высказывает свое экспертное (зачеркнуть) малограмотное мнение!
По поводу передачи данных для распознавания между камерами — Эльдар не в курсе вообще как это работает. Очевидно или прочитал, или ему кто то рассказал эту байку про китайцев.
Делать ботнет для распознавания на камерах — такое себе еще удовольствие. Если бы он реально занимался данными технологиями, у него просто бы даже не возникало бы таких глупых фраз, которые он так стремиться зафиксировать "на бумаге" и опубликовать в интернет!
Карина, Разве про Далли2 Эльдар статью писал?
"…в Китае создают камеры, имеющие собственные вычислительный блок, они анализируют базу разыскиваемых людей локально, сверяют лица с теми, что занесены в память."
Бред какой-то создают китайцы. Либо вы неверное поняли идею.
В камере логично иметь ASIC, специализированный аппаратный чип. Но его задача выявлять лица в видеопотоке или, на крайний случай, вычислять их хэш. В короткой оперативке определять новые, попавшие в кадр и отсылать эти метаданные серверу вместе с картинкой. Этих новых лиц будет не так много, чтобы прям создавать лавину запросов. А уж сервер будет категоризировать эти лица, сверять с базой и прочее. Хранить же базу на камере и иметь там полноценный компьютер для общих вычислений — мне это странно. Обойдется дороже.
Lecron, Оно же так и есть — в памяти хеши, а не фото разыскиваемых. Судя по всему, автор лишь упростил формулировку.
=) Для трекинга, особенно межкамерного, ресурсов нужно сильно больше чем на распознавание лиц. Само распознавание лиц, которого так боятся все фанаты 1984, работает из рук вон плохо. А уж массовый трекинг "силуэтов", господи.
П.Н.., Это понятно. Просто зачем хранить их в камерах? Во-первых запредельное дублирование, во-вторых оперативность изменений ни к черту, в-третьих, как говорил, это уже общие вычисления, которые дороже специализированных.
Lecron, В камере алгоритм определения лица и вычисления хеша (на спец.чипе или на универсальном — не так важно). Определяем лицо в потоке, вычисляем его хеш, ищем совпадение в локальной базе хешей в розыске. Если нашли, то только тогда шлём на сервер картинку для принятия решения. Хеш лица многократно компактнее самой картинки — если слать все "новые" картинки, то серверу свихнуться можно (вспоминаем Китай и их реки людей).
П.Н.., Вы ошибаетесь в оценке сложности вычисляем и ищем. Первое, это потоковый процессор. Пусть сложная числодробилка, но рассчитанная на единственную задачу и полностью реализованная в железе. Как допустим шумопонижение в наушниках, определение координат в GNSS или декодер видео. Второе, это полноценное ядро с кучей софта для бизнес-логики. И при внешней простоте, оказывается в разы, если не на порядки дороже числодробилки. При этом, поток задач для него для единственной камеры, оказывается незначительным. Из пушки по воробьям. При этом, картинка все равно льется на сервер для записи. Найдено там что-то или нет, впоследствии может понадобится ручной анализ записи. Она ведь ведется не только для поиска уже объявленных преступниками людей, но и для раскрытия новых преступлений.
Поэтому, как говорил, чтобы сервер не свихнулся, задачу детектирования и отслеживания лиц в пределах одной камеры, делаем на камере, а серверу шлется метка: в координатах X:Y пикселей новое лицо — разберись. Даже распознавание персоны выгодно делать на сервере. Потому что алгоритмы детектирования лиц уже отлажены, не требуют обновления и могут быть реализованы аппаратно, а распознавание еще активно совершенствуется.
Lecron, Странно. Видимо разработчики этой техники имеют другие доводы, раз создают камеры с автономными алгоритмами распознавания. Вот для примера список возможностей одной из таких:
— Подсчет лиц, подсчет количества входящих и выходящих людей (одновременное слежение за 30 целями).
— Детекция нескольких целей: лица, фигуры, пола, возраста человека, цвета одежды; получение до 12 признаков фигуры и до восьми признаков лица; структурное моделирование лица и фигуры.
— Поддержка трех библиотек по 30 000 лиц в каждой с шифрованием информации и динамическим обновлением в режиме 24/7.
— Детекция шлема (наличие, отсутствие); захват до 30 целей.
— Управление очередью: подсчет количества людей в очереди, подсчет продолжительности нахождения в очереди для отдельного человека, детекция признаков телосложения для фильтрации целей.
П.Н.., Я не утверждал что таких нет. Лишь что стоимость программно-аппаратного комплекса включая его поддержку, для шибко умных камер с тупым сервером и в меру умных с умным сервером, сильно зависит от количества камер в группе и задач которые они решают. Чем меньше количество камер у организации, тем выгоднее их умность. Для магазина, казино или проходной предприятия, большего не надо. Но город, с сотнями камер — совсем другое.
Lecron, Разница в цене между моделями "с распознаванием" и "без" не столь значительна, чтобы говорить о ней с учётом стоимости остальных компонентов. Алгоритмы давно отработаны и корректируются минимально. Всё поставлено на поток.
Kip_Thorne, "ХУДОЖНИК НА AI-АЛГОРИТМАХ, DALL‑E 2 КАК ПОВОРОТНЫЙ МОМЕНТ ИСТОРИИ
Эльдар Муртазин
26 АПРЕЛЯ 2022"
Карина, Ок, значит, я попутал.
Lecron, Пусть ИИ следит. И если поведенческий паттерн подозрительный — подключает органы. А проблему такая слежка решает простую: бесконтрольное ношение оружия. Понятно, что 100% решения проблемы масс-шутинга это не даёт, но как минимум сократит количество путём предотвращения сего безобразия.
(Кстати это тот редкий случай когда я готов поступаться собственной свободой, в частности, как владелец оружия)
kinda66, Ну так у нас демократия, она как бы подразумевает "власть" большинства.
Если развить мысль, условные 60% выбравшие ВВП, таки игнорируют мнение 2%.)