Распознавание силуэтов людей — зачем оно нужно в городах

Привет.

Бывает так, что очень интересные технологии всплывают в деловой прессе, а вместо их внятного описания видишь плохо скрытые смешки. Мол, раньше у нас было распознавание лиц, а теперь все настолько грустно, что ударились в распознавание силуэтов людей. Звучит примерно так, что вчера еще пользовался iPhone, а сегодня пересел на бюджетный Android. Плохо скрытое пренебрежение проступает сквозь текст, но главное, что обычный читатель не может понять, зачем это нужно и почему такая технология в принципе может появиться. Попробуем вместе разобраться в этом.

У всех на слуху технология распознавания лиц, она прекрасно работает в разных условиях и хорошо себя зарекомендовала в той же Москве, количество квартирных краж в городе постоянно снижается. Зависимость от числа камер прямая, в столице сегодня уже более 213 тысяч камер, по данным мэрии, и их количество продолжает расти. Камеры стоят на дорогах, во дворах, а также на подъездах. Их характеристики постоянно меняются, они получают большее разрешение и даже системы бизнес-аналитики, примерно такие же, как в розничных магазинах, — там они умеют учитывать число посетителей, то, чем те интересовались, что делали продавцы и еще десятки других параметров.

Технические требования к распознаванию лица человека достаточно жесткие, вам нужна картинка хорошего качества, читай — камера должна дать видео в разрешении, которое позволит это сделать. И тут начинается первая проблема для города — такие камеры стоят дороже, чем те, что имеют низкое разрешение, получается, что в условиях любого реального бюджета скорость разворачивания камер упирается в наличие денег. А ведь есть еще необходимость обслуживать эти камеры!

С этой задачей впервые столкнулись в Китае и Израиле, чем больше камер высокого разрешения вы ставите, тем большие вычислительные мощности для обработки информации с них вам нужны. Технически этот вопрос можно решить разными способами, например, в Китае создают камеры, имеющие собственные вычислительный блок, они анализируют базу разыскиваемых людей локально, сверяют лица с теми, что занесены в память. Такая камера стоит дорого, поэтому следующей итерацией стало создание локальных сетей из камер, на каждые несколько десятков камер добавляется мини-сервер, что отвечает за обработку данных и дальше передает самое интересное в облако, в большую систему. Нагрузка на сети передачи данных снижается, но стоимость такой системы для большой страны неподъемная, использовать ее массово во всех точках присутствия невозможно. Поэтому в городах выделяют отдельные важные объекты. Например, в аэропортах, где безопасность должна быть на максимальном уровне, вся система выстроена вокруг работы в режиме реального времени, и она стоит очень дорого. Но при этом предлагает и другие плюсы — персонализацию объявлений на экранах, когда вы подходите к ним и смотрите на информацию о своем рейсе. Не нужно его искать глазами, табло определит вас и подсветит нужные вам данные самостоятельно. Кажется, что это фантастика, но она уже возможна, и та же Huawei много лет строит такие системы в Китае.

Почитайте материал о таких системах, они производят неизгладимое впечатление, если не знаешь о том, что такие чудеса существуют в нашем мире.

Проблема тут только одна, такие системы стоят дорого и очень дорого. Отсюда необходимость экономить ресурсы, закупать камеры с низким разрешением. Это, в свою очередь, означает, что качество распознавания лиц падает, растет число ошибок. Каждое ошибочное распознавание выливается в деньги, задействуются различные протоколы, например, задержание разыскиваемого преступника. Но оказывается, что человек таким преступником не является, а на его поимку тратят немалые деньги, и главное, растет число ошибочных реакций системы. И это, конечно же, никого не может удовлетворить.

Давайте посмотрим на задачу безопасности в городе с точки зрения определения потенциальной угрозы, например, на улице появился человек с ружьем. Система, выстроенная вокруг распознавания лиц, может иметь дополнительные паттерны, определять такой тип угрозы. Но это дополнительная задача аналитики картинки, и с ней такая система может не справиться, в любом случае нужна программа, которая умеет работать с силуэтами, так как это принципиально другая задача.

Давайте посмотрим на задачу шире, подключим камеры, которые не умеют качественно распознавать лица, но могут работать с силуэтами. У нас резко расширяется пространство возможностей, так как таких камер можно установить больше, а они могут чередоваться с камерами высокого разрешения в ключевых точках. Мы снижаем общую стоимость системы, но при этом не жертвуем качеством распознавания и безопасностью. Фактически комбинируя разного уровня железо, получаем лучшее качество контроля над окружающим миром.

Трагедии в казанской школе могло не случиться, если бы такие камеры стояли на улицах, они смогли бы определить стрелка, который идет по улице с ружьем. Затем подключились бы камеры высокого разрешения, параллельно был бы выстроен маршрут, по которому он идет, а полиция имела бы минут пять, чтобы отреагировать и остановить его. Напомню, что тогда погибли девять человек, тридцать два получили ранения. И всего этого могло не произойти, если стрелка остановили бы на подходе к школе. Рассчитывать на людей в таких делах точно не стоит, подобные угрозы должны распознавать автоматические системы, человек с ружьем в руках на улице города — это всегда прямая и неприкрытая угроза.

Камеры и безопасность — это уже некий стереотип, вокруг которого строятся презентации многих компаний. Но давайте посмотрим на систему бизнес-аналитики, которая может быть полезна для компаний. Возьмем транспорт как таковой и его остановки. Нужно ли распознавание лиц в моменте? Точно нет! Необходимо скорее подсчитать число пассажиров, выделить количество инвалидов на колясках, если таковые есть. Водитель автобуса получит сообщение о том, что на такой-то остановке посадки ожидает инвалид, будьте внимательны. Придумать сценарии применения для таких данных не составит труда, их воз и маленькая тележка.

Силуэт человека — это временный идентификатор, он может меняться в зависимости от одежды, времени года и так далее. И в этом аспекте такие системы способны обеспечить приватность, которой многие так жаждут. Например, приходя в развлекательный центр, можно внести свой силуэт в систему, чтобы проходить куда-то без барьеров, точно знать, где находятся ваши близкие или дети. Тут же возможен анализ не только силуэта, но и вашей походки. Но главное, что этот идентификатор вы сами можете легко “разрушить”, меняете одежду, и на следующий день вы “новый” человек для подобной системы. Вот она, приватность, в которой никто не заносит ваше лицо в базу данных.

Комбинация распознавания лиц и силуэтов дает намного более широкие возможности для любой системы наблюдения. Приведу такой пример — кто-то украл ваш велосипед, но на камерах не видно лица, картинка размыта. Камеры могут отследить маршрут человека по силуэту, рано или поздно он попадет в поле зрения камеры с высоким разрешением, где определят его личность. Сегодня такая задача нерешаема, если вор избежал камеры высокого разрешения.

Для разработчиков систем наблюдения с распознаванием силуэтов достаточно картинки с любой камеры, она может быть черно-белой или цветной, снятой под разными углами. Точность распознавания — минимум 90%, причем со временем она будет расти. Сегодня можно сбить систему тем, что вы возьмете в руки какой-то предмет, ваш силуэт изменится. Но есть понятные способы, как решать эту проблему, вопрос носит исключительно технический характер.

Теперь давайте взглянем на вопрос с точки зрения вычислительной мощности, нужной для обработки силуэта и распознавания лиц. Количество контрольных точек при анализе силуэта на порядок меньше, чем для отдельного лица. Грубо говоря, на одно лицо уходит как минимум столько же энергии и вычислений, сколько на распознавание десятка силуэтов. Экономика в этом случае понятна, и она складывается в пользу работы с силуэтами, тем более что во многих задачах, где нет необходимости точно знать, кто перед вами, и такой системы будет довольно.

В России NTechLab активно разрабатывает систему распознавания лиц, и она работает на отлично, с 2019 года компания также работает над распознаванием силуэтов. И это комплексное решение, которое необходимо, чтобы экономить деньги и строить комбинированные системы. Софт позволит добиваться качественно иных результатов и быстрее покрывать города системой видеонаблюдения.

Опасения, что за нами будут следить, есть у множества людей, и они не беспочвенны. Наша задача как общества — сделать так, чтобы системы были прозрачны и применялись только в определенных условиях, нужно избежать всех сценариев неправомочного их использования. Я верю, что это не просто возможно, а именно так и будет происходить, хотя учиться мы будем на собственных ошибках. Хотите вы того или нет, системы наблюдения будут эволюционировать, и то, что они будут становиться вот такими, недорогими и эффективными, — огромный плюс. Изучая каждую такую технологию, всегда нужно держать в уме стоимость железа и цену вычислений. Насколько быстрее сможет работать система, что даст качественный прирост для определения заложенных ситуаций. Вопрос сейчас стоит именно об этом, и то, что в России сильна разработка таких систем, мне видится однозначным плюсом. В будущем ни одна страна мира не сможет избежать их применения во всех сферах, так как это удобно и никакой угрозы жизни людей не несет — вопрос того, какие правила устанавливать для использования подобных систем.

Вы продолжаете бояться массовой слежки? Или изменили мнение за последние годы?

[email protected]
наверх