Google сообщила о запуске Gemini Omni Flash, первой модели из линейки Omni. Эта разработка позволяет создавать видеоконтент на основе различных входящих данных, включая изображения, звук, текст и видеофрагменты. Уникальность решения заключается в объединении навыков рассуждения модели с возможностями генерации. Пользователи могут редактировать ролики с использованием естественного языка, сохраняя при этом целостность персонажей и физических свойств объектов в кадре. Это позволяет изменять окружение, ракурс или стиль видео, опираясь на заданные текстовые инструкции.
Система обладает пониманием физических процессов, таких как гравитация и динамика жидкостей, что помогает делать визуализацию реалистичнее. Модель использует базу знаний о науке, истории и культурном контексте, что способствует созданию осмысленного повествования. Дополнительно предусмотрена возможность создания цифровых аватаров для генерации видео с имитацией голоса пользователя. Для обеспечения прозрачности происхождения контента все созданные файлы маркируются цифровым водяным знаком SynthID, который можно проверить в приложении Gemini, браузере Chrome и поиске Google.
Модель Gemini Omni Flash уже доступна подписчикам Google AI Plus, Pro и Ultra в приложении Gemini и Google Flow. Также инструмент предлагается без дополнительной оплаты пользователям сервисов YouTube Shorts и YouTube Create App. В ближайшие недели разработчики и корпоративные клиенты получат доступ к API для внедрения данных функций в сторонние проекты.
