По материалам Android Authority
В последние пару месяцев Qualcomm и MediaTek анонсировали свои флагманские процессоры нового поколения, которые будут использоваться в топовых смартфонах 2023 года. Фактически смартфоны с этими чипсетами уже анонсированы или вышли на рынок, например, это OnePlus 11, линейки Xiaomi 13 и Vivo X90.
Новые процессоры обеспечивают повышенную мощность, аппаратную трассировку лучей и спутниковую связь. Но вот с точки зрения возможностей камеры это, похоже, будет еще один год без прорывов. Высокопроизводительные чипы MediaTek и Qualcomm не претерпели серьезных изменений в том, что касается разрешения фото и видео или частоты кадров.
Однако поддержка камеры — это больше, чем просто разрешение снимка. Обе компании привносят в мобильные камеры довольно много неочевидных изменений, таких как профессиональная технология видеосъемки, оптимизация для 200-мегапиксельных сенсоров и встроенная поддержка RGBW-камер. Также мы наблюдаем тенденцию к унификации аппаратных возможностей для искусственного интеллекта и обработки изображений, и в 2023 году это позволит реализовать как минимум одну довольно интересную функцию.
Более детальное распознавание
Qualcomm рекламирует семантическую сегментацию в реальном времени в Snapdragon 8 Gen 2. Семантическая сегментация — это способность идентифицировать определенные объекты и предметы в кадре. Эта технология лежит в основе многих режимов съемки. Программное обеспечение камеры способно идентифицировать определенные сцены или людей, а затем соответствующим образом обработать изображение.
Многие бренды смартфонов используют семантическую сегментацию в портретных режимах для одной камеры, в то время как другие применяют ее для распознавания сцен ИИ (закаты, пейзажи, цветы, еда). Некоторые компании, такие как Xiaomi и Google, даже рекламируют возможность полностью заменить серое небо на вашей фотографии голубым.
Однако Qualcomm пошла еще дальше. Во-первых, компания подтверждает, что последняя версия ее решения достаточно быстрая для работы в режиме реального времени и для съемки видео. Также сообщается, что это решение способно идентифицировать определенные элементы, такие как зубы, волосы, растительность на лице, губы, ткань и многое другое. И это может открыть для любителей снимать на смартфон ряд интересных возможностей.
Наиболее очевидной из них является создание более точных снимков в портретном режиме. Собственное видео Qualcomm совместно с ArcSoft демонстрирует способность более точно размывать неоднородный фон (см. ниже), сохраняя при этом в фокусе более сложные объекты.
Однако самое интересное заключается в том, что в смартфонах со Snapdragon 8 Gen 2 могут появиться более детальные и продвинутые эффекты бьютификации. Джадд Хип, вице-президент по управлению продуктами для камер в Qualcomm, сообщил Android Authority, что технология изначально ориентирована на селфи-камеры.
Селфи-камеры уже предлагают опции бьютификации по удалению дефектов, сглаживанию кожи и корректировке формы, но это только верхушка айсберга в применении семантической сегментации в реальном времени.
Теоретически возможно появление и более сложных эффектов, таких, например, как отбеливание зубов. Ведь новейшая технология и правда позволяет распознавать зубы в кадре. Хип соглашается с этим предположением и объясняет, что партнеры компании могут создавать свои собственные сети семантической сегментации на основе этой технологии для обнаружения других объектов.
«Так что да, если у вас есть сеть, которая действительно хорошо распознает зубы, то ее можно передать процессору по обработке сигнала изображения, и он может обесцветить зубы и превратить их из желтых в белые. Да, это вполне возможно».
Qualcomm также рекламирует способность распознавать волосы, заявляя, что эту функцию можно использовать для создания более детализированных изображений. Теоретически возможно, что производители реализуют удаление седых волос или возможность полностью изменить цвет волос. Хип предполагает, что удаление седых волос может стать сложной задачей, особенно если это всего лишь несколько седых волос среди множества темных. Он считает, что полное изменение цвета волос возможно, хотя и может выглядеть нереалистично.
Однако производителям придется балансировать на тонкой грани между предоставлением функций бьютификации, которые востребованы у людей, и продвижением искаженных стандартов красоты. В конце концов, за эти годы мы повидали много сомнительных эффектов и фильтров, таких как истончение лица, изменение формы носа, осветление кожи и расширение глаз.
Однако сфера применения продвинутой семантической сегментации изображений не ограничивается бьютификацией. Как показано в видеоролике Qualcomm, эта технология также может улучшить отображение одежды, добавляя резкости для джерси или куртки и не затрагивая остальные части вашего тела. В ролике даже показана возможность убрать блики с очков.
Qualcomm также подтвердила, что семантическую сегментацию в реальном времени можно запрограммировать. Таким образом, компании могут запускать разные нейросети, если у них есть другие варианты использования технологии.
Придет ли технология в коммерческие устройства?
Поддержка функций вроде семантической сегментации в реальном времени – маркетинговое преимущество для производителей чипсетов, но действительно ли эта технология попадет в смартфоны? Производители смартфонов не единодушны в вопросе использования функций камеры от производителя чипов (например, неограниченная замедленная съемка со скоростью 960 fps, 120 fps в режиме серийной съемки на камеру 12 МП).
Хип подтвердил, что эта функция доступна «из коробки» для всех марок смартфонов. «Таким образом, нет никаких лицензионных сборов, производителю больше ничего не надо делать», — пояснил он.
Другими словами, это будет не просто теоретическое наличие функции, а то, что появится в коммерческих устройствах в 2023 году. Поэтому будем следить за анонсами Samsung, Xiaomi, Oppo и других брендов и посмотрим, появится ли в их устройствах семантическая сегментация в реальном времени.
ИИ + обработка изображений
Усовершенствование семантической сегментации от Qualcomm возможно благодаря ее собственной функции Hexagon Direct Link. Qualcomm эффективно создает связь между чипом искусственного интеллекта и процессором обработки изображения, ответственным за обработку кадров с камеры. MediaTek следует аналогичным путем с чипсетом Dimensity 9200, заявляя, что в нем объединены искусственный интеллект и процессор обработки изображений для более эффективной реализации съемки 8K/30 fps и 4K/60 fps с электронной стабилизацией. Между тем, наполовину кастомные чипы Tensor от Google в телефонах Pixel также используют процессор ИИ, который полностью интегрирован в процесс обработки изображений.
Этот совмещенный подход, объединяющий чип ИИ и процессор обработки изображений, от Qualcomm и MediaTek, в частности, означает, что данные камеры могут обходить сравнительно медленную оперативную память, обеспечивая обработку фотографий в реальном времени. Быстрая обработка не просто означает меньшее время, которое перед вами висит сообщение об обработке кадра, прежде чем появляется возможность предпросмотра. Потенциально это может дать возможность предпросмотра в видоискателе в различных режимах, новых режимов фотосъемки и новых функций видео.
Qualcomm и/или MediaTek уже обещают расширенные функции камеры в своих последних чипсетах, такие как улучшенное видео с эффектом боке, сверхвысокое разрешение видео, устранение размытия фотографий и улучшенные результаты при недостаточном освещении. Но нетрудно представить и будущие функции, такие как более детальные и эффективные фильтры дополненной реальности, функция Magic Eraser для видео, режим серийной съемки с HDR для каждого снимка или многокадровая обработка для снимков с полным разрешением 50 или 108 МП.
Впервые мы почувствовали вкус будущих возможностей, когда камеры обошли традиционную оперативную память в Sony Xperia XZ Premium 2017 года. Этот телефон оснащен сенсором камеры с собственной выделенной оперативной памятью, что впервые обеспечило возможность съемки сверхзамедленного видео со скоростью 960 fps. Поэтому интересно посмотреть, что еще возможно с гораздо более быстрым процессом обработки изображения камерой.
К счастью, этот унифицированный подход к аппаратному обеспечению ИИ и процессора обработки изображений не будет эксклюзивным для флагманских устройств. Хип подтвердил, что можно ожидать, что в какой-то момент эта функция появится в чипсетах среднего уровня.
Будущее камер смартфонов
Интересно, что и Qualcomm, и MediaTek приходят к одному и тому же выводу об объединении аппаратных возможностей искусственного интеллекта и обработки изображений. И нет сомнений в том, что это может стать основой будущих разработок камер для смартфонов. Таким образом, несмотря на то, что современные высокопроизводительные чипсеты не дают поводов для громких заголовков про функции камеры, в них по-прежнему привносят важные улучшения.
Этот последний шаг в сегментации изображений выглядит особенно интересным. Наряду с более точным портретным режимом, более детальной обработкой изображений и улучшенной бьютификацией семантическая сегментация в реальном времени уже обеспечивает некоторые интересные функции. И все равно интересно, что еще производители смартфонов придумают благодаря этому режиму и более унифицированному подходу к аппаратному обеспечению искусственного интеллекта и обработки изображений.
>>> Однако сфера применения продвинутой семантической сегментации изображений не ограничивается бьютификацией. Как показано в видеоролике Qualcomm, эта технология также может улучшить отображение одежды, добавляя резкости для джерси или куртки и не затрагивая остальные части вашего тела.
Интересно, а эта сегментация поможет заменить ноунейм курточку на какой-нибудь хьюго босс? Ну или лоховской самсунг в руке на айфончег? Да и вообще заменить окрестное Бутово на Канары? Очень нужная технология, очень!
GrishaTav_SE, Теоретически — да. Но если про блюр лейблов и замену пейзажа, то это уже есть.
Все это давно есть в программе обработки изображений, но требует контроля со стороны человека, иначе может получиться нечто монстрообразное.
По мне так хочешь хорошее фото — бери полнокадровую зеркалку, снимай в RAW и обрабатывай. Смартфоны это ерунда полная с фильтрами доя инстаграмма.
GrishaTav_SE, проще вообще фото целиком заменить😀 как в случае с фотобанком изображений луны
Константин Иванов, Нет, нужен не блюр, а именно полная замена вещи на картинке.
Из штанов выпрыгивают ради картинок и видео и ну вообще ничего не делают для голосового обмена. Беспроводные голосовые технологии замерзли в каменном веке. Музычку передавать — да, с трудом научились. У блютузные гарнитуры — без слез не послушаешь. Одноразовые, с плоским звуком во время голосового обмена, работающие ненадежно. Смарт же для связи! А для связи почти ничего не делают. Где повсеместный голосовой EVS кодек? Сколько смартов его поддерживают? Где этот AI, улучшающий голос? Почему только тупые эквалазеры и фильтры шумов? Где интеллектуальная обработка голоса? Ненавижу маркетоидов, они все портят. Это с их подачи произошел разворот в сторону картинок, вместо того что бы дальше улучшать речевой обмен.
zver0boy, голосовой обмен уже развит, FaceTime называется🤗
Пончик, автономного распознавания речи в момент разговора нет, бьютификации на основе сегментации гласных/согласных нет, задержка при передаче речи в беспроводных устройствах конская, прогресс в звуке вообще не сравним с прогрессом в видео/картинках
Dmitry Mitry, В этом и проблема, что требует человека. Всё что может делать компьютер, должен делать компьютер. А человек вмешиваться, только когда не получилось. Так где аналогичные программы для обработки уже существующих кадров?
А мне вариант "после" (after) на первом фото, понравился гораздо меньше чем "до" (before). Дужка очков размыта и вообще, ощущение что стекло мутное.
Точно ли это прогресс?
zver0boy, >> Где повсеместный голосовой EVS кодек?
Если честно, отношусь негативно. Утомляет ситуация "Технология X имеет принципиальный недостаток, она сделана не нами. Поэтому предлагаем технологию Y".
EVS (технология Y) обычно сравнивают со старыми AMR, где он конечно выигрывает. Но при сравнении с Opus (технология X), насколько я понял исследования, в диапазоне до 25 kbps у EVS принципиальных преимуществ нету. При этом, opus поддерживают все. Осталось его донести до телефонного модуля.
Lecron, Полно, даже российские. Всякая ретушь портретов например на основе AI
Для отбеливания зубов предпочитаю зубной порошок))).
Lecron, Опуса в голосовых нет нигде, насколько я знаю. Вероятно потому, что он энергозатратный. А EVS есть. Кстати про прогресс, оказывается завезли LC3 для блютуза, может это будет прогрессом?
zver0boy, Эффективность должна быть, но без фанатизма. На современных технологиях, аппаратный кодек ДОСТАТОЧНО эффективен. Сколько TWS aac живут в режиме разговора? А opus процентов на 20 экономичнее. Если учесть темпы роста железной энергоэффективности, на первый план должны выходить совсем другие критерии кодеков, внедряемых на долгие годы. Например распространенность, универсальность, свобода от лицензионных отчислений.
Последний критерий, кмк, и затормозил внедрение EVS. Пока на обоих сторонах коннекта его нет, одной из них он бесполезен, а деньги должны быть заплачены. Зоопарк только вредит.
Теперь представьте, что opus оказался бы в стандартах голосовой связи, блютус стека, потоковой передачи и классического использования для хранения музыки. Вместо EVS, LC3, aac и mp3. Кайф же. Наверняка можно было бы извлечь дополнительные плюсы из конвергенции. Например отсутствие дополнительных преобразований. Что автоматически подняло качество и сократило потребление. Прилетел вам голосовой opus и ушел битстримом на наушники, попутно сохранившись как запись разговора.
Lecron, Да я только ЗА, мне опус в IP телефонии нравится, но видимо есть причина, почему его нигде нет? Может он качественный, но к потерям не так устойчивый?
zver0boy, Правило универсальное: Если вы не видите причин, значит причина в деньгах.
EVS, как и AMR-WB и AMR-WB+, имеет несколько патентов . Как и в случае с этими двумя кодеками, VoiceAge Corporation отвечает за лицензирование и предлагает цены RAND. Лицензированием LC3 занимается институт Франхофера.
Opus имеет свободно доступную спецификацию, высококачественный эталонный кодировщик и декодер с лицензией BSD, а также защитные бесплатные лицензии на необходимые патенты. Лицензии на авторские права и патенты для Opus автоматически предоставляются всем и не требуют подачи заявления или одобрения.
Вы можете бесплатно кодировать или декодировать потоки, совместимые с Opus, для любых целей.
Вы можете бесплатно интегрировать эталонный кодер и декодер Opus в любое приложение, программу или продукт, даже коммерческий.
Вы можете создавать свои собственные совместимые реализации спецификации Opus и раздавать или продавать их.
Lecron, Хорошо, раз опус бесплатный, есть идеи, почему он аппаратно не поддерживается? Очевидно, что если бы кто-то из производителей оборудования для ОПСОСов его поддерживал, он бы получил конкурентное преимущество. Но этого же нет? Есть идеи, почему?
zver0boy, Повторю, все дело в деньгах. Кто-то хочет заработать на внедрении своих продуктов в стандарты. Работа вне стандартов ,в худшем случае не будет сертифицирована, а в лучшем, обладает эффектом мессенджера. Не важно что хочешь ты, важно что использует твой собеседник.
>> Может он качественный, но к потерям не так устойчивый?
забыл прокомментировать в прошлом посте. Кроме лучше/хуже, есть есть критерий "достаточно". Обратите внимание на пресс-релизы. Никто не скажет, что такого-то решения недостаточно, поэтому мы изобрели новое. А если скажут, как тоже уже писал, будут приведены сравнения с древними технологиями, а не с современными конкурентами.