«Шедеврум» и Kandinsky 2.1, или не все бета-версии одинаково полезны

Приветствую! На прошлой неделе сразу две российские компании открыли публичный доступ к своим сервисам на основе генеративного ИИ, которые умеют переводить текстовый запрос в графическое изображение. Эльдар уже вкратце коснулся в «Бирюльках» вопроса о том, что и как получилось у «Сбера» и что никак не получилось у «Яндекса». Да, потенциал у «Шедеврума» есть, но судя по тому, что нам показали сейчас, есть большие основания сомневаться в том, что проект разовьется нормально. Потому что открывать доступ к продукту, который едва достиг уровня альфа-версии, — это нонсенс. Причина вполне понятна: «Сбер» сделал общедоступной бету нейросети Kandinsky, и в «Яндексе» почему-то решили, что если они срочно не покажут свой аналог, то непременно потеряют аудиторию.

Мысль, в общем-то, очевидная, но мировая статистика интереса к нейросетям говорит, что ничего серьезного от чуть (или даже не чуть) более позднего запуска потерять не получится. Огромный, чрезвычайный интерес к ChatGPT конвертировался в переток аж 1% пользователей поисковика Google в сервис Bing. Потому что у Bing теперь есть языковая модель, а у Google нет. Нетрудно догадаться, что если Google выпустит адекватного конкурента для ChatGPT, то этот 1% вернется обратно. Конечно, большой вопрос, насколько хорошо получится у Google, потому что там явно работают в авральном режиме. Но тут есть тонкий момент. Google и Bing — прямые конкуренты, а вот никакого поисковика или любого другого сервиса, который был бы у «Сбера» и который напрямую выигрывал бы от успеха «Кандинского», не существует. Нейросеть просто повышает интерес к бренду в целом, а не к какому-то конкретному продукту. Зачем было пороть горячку — большой вопрос к топ-менеджерам «Яндекса», я бы предположил, что это либо паника, либо неадекватная оценка разработчиками собственного продукта, который вышел иллюстрацией принципа «фигак-фигак и в продакшн».

Что получилось

В общем-то, то, что никогда не стоит выпускать сырой продукт, — это аксиома, доказывать тут нечего. Но перед нами история, или, как говорят, «кейс», которая гораздо интереснее, чем просто сырая «альфа», которую по недоразумению показали всему миру. Дело в том, что «Шедеврум» делали с прицелом на очень большое будущее. У «Яндекса», несмотря на неоднократно предпринимавшиеся попытки, так и не вышло застолбить себе место в мире соцсетей. Да, существует «Дзен», но его никак не получится назвать успешной соцсетью, дальше платформы для блогов он не продвинулся, никакого активного общения там не существует, функциональность по меркам соцсетей также никакая.

И тут появляется возможность попробовать еще раз. Сделать такой себе Instagram*, но картинки для него будет создавать нейросеть. По запросам пользователей, разумеется. Можно не просто запилить интересное, а сразу поделиться с друзьями или вообще с неограниченно большой аудиторией. Тем более что у многих миллионов пользователей уже имеется учетная запись для сервисов «Яндекса», и наконец-то ее можно будет реально использовать для общения в соцсети «Яндекса» же. И более того, система рейтинга будет способствовать продвижению «Шедеврума», потому что, зайдя в него первый раз, пользователь будет видеть лучшие образцы, а значит, получит представление о том, как круто может рисовать вот эта конкретная нейросеть.

Но это в прекрасном мире, где дедлайн наступает по календарному сроку, а не в произвольный день, потому что надо. В реальном мире все пошло не так с момента регистрации пользователей в «Шедевруме». Несмотря на то, что основным и главным инструментом, безусловно, должно было стать приложение для смартфонов, чтобы не упустить ни одного пользователя, у «Яндекса» предусмотрели все аналогичные другим проектам способы подключения. Хотя, казалось бы, приложение в обычном Google Play — огромный и жирный плюс в глазах любого, особенно когда твой единственный прямой конкурент в этих магазинах забанен. Что получилось в итоге? Получилась полная ерунда. Кто-то ждал доступа час, кто-то сутки, кто-то получил его сразу. Мой запрос через бота в Telegram все еще не удовлетворен, но после скачивания приложения и привязки к аккаунту «Яндекса» я сразу смог начать им пользоваться. Хотя, судя по отзывам, это совершенно не показатель и с регистрацией учетной записи все может быть не так уж хорошо. Т.е. в «Яндексе» откровенно пожадничали и попросту перегрузили сервер, дав выбор там, где он был совершенно не нужен.

Второй момент, который выглядит более чем странно со стороны «Яндекса», — это наличие ограничений на создание контента. С чем пользователи столкнутся в первую очередь — с запретом на использование образов конкретных людей. Ограничение, с одной стороны, понятное, а с другой… «Шедеврум» обучен на Х миллионов пар «изображение-описание». За всю историю человечества было на порядок больше людей, поэтому запрет работает лишь частично. Вы не сможете попросить изобразить законы царя Хаммурапи, зато никто не откажется нарисовать Суппилулиуму. А если вы вдруг напишете лишнюю «п» у Хаммурапи, то нейросеть выдаст вам результат, который, в целом, показывает, что она не против нарисовать вам деятелей из Древнего мира. Еще интереснее то, что и против некоторых деятелей ХХ века она тоже ничего не имеет. И даже ныне здравствующих, но имеющих псевдоним, можно небезрезультатно попросить изобразить. Т.е. запрет есть, но не работает, потому что вместо фильтрации запросов по многим признакам было выставлено самое примитивное ограничение.

Третий момент — это мастерское умение показать, что твоя модель ИИ оказалась недоучкой. В общем-то, для тех, кто в курсе, сколько нужно вариантов только для того, чтобы нейросеть была способна адекватно обрабатывать запросы на рисование котиков, уже официальный пресс-релиз, посвященный запуску, звучал как приговор. Это не было бы проблемой, если бы «Яндекс» не гнался за «Сбером», который тоже назвал свой продукт бета-версией (и это истинно так). Просто на его фоне «Шедеврум» явно не шедевр, даже с поправкой на бетовость. Пользователю ничего не стоит зарегистрироваться в обоих проектах и задавать одни и те же запросы, а потом выбрать лучший. Собственно, я так и сделал и предлагаю в полной мере насладиться тем, насколько хорошо рисует Кандинский и как туго с шедеврами у «Шедеврума».

Сравниваем примеры творчества

Я специально оставил все примеры в виде скриншотов, чтобы можно было видеть, что просили сделать и что получилось. Сравнивать качество проработки изображений на данном этапе нет никакого смысла — это бета-версии, говорить о том, насколько хорошо реализуется возможность создавать картинку с высоким разрешением и нормальной детализацией, нет смысла. Как нет смысла сравнивать возможности, которые не совпадают у ИИ «Сбера» и «Яндекса». Выставлять же сравнение с аналогами от зарубежных проектов тоже было бы неправильно, у тех большая временная фора. Поэтому давайте просто посмотрим, что могут наши. Слева — «Шедеврум», справа — Kandinsky 2.1.

Начнем с совсем простого, попросим создать открытку:

«Открытка с поздравлением с днем рождения для девушки»

У «Шедеврума» из четырех вариантов только один на 100% соответствует понятию открытки, хотя, в принципе, после небольшой доработки в редакторе с наложением текста все могут быть использованы. У Kandinsky 2.1 получилась открытка в модном стиле, и даже каракули можно оставить, в них вполне читается Happy Birthday. Вопрос в том, что стиль вам может не нравиться. Давайте добавим:

«Открытка с поздравлением с днем рождения для девушки в стиле импрессионизм»

Результат «Яндекса» сильно улучшился. Три варианта — это готовые открытки на заданную тему, да и четвертый неплох. Правда, лишь две можно считать попаданием в стиль. А вот у «Сбера» результат получился менее однозначным. С одной стороны, у нас снова есть открытка, но это просто акварель, тогда как просили его о другом.

Еще попробуем получить открытку для поздравления с Новым годом, но сразу усложним задачу.

«Поздравление с новым годом в стиле картин айвазовского»

«Яндекс» с задачей не справился. Лишь один из вариантов с натяжкой можно считать соответствующим запросу. У «Сбера» результат не лучше. Ни Нового года, ни Айвазовского, просто фэнтезийное море с фэнтезийным кораблем. Решить непростую задачу, требующую человеческого воображения, ни одна генеративная модель не смогла. Давайте попросим что-нибудь попроще.

Запрос на творчество почти в свободной форме

«Картина в стиле социалистического реализма»

Вначале я подумал, что «Шедеврум» не понял сокращения «соцреализм», но оказалось, что он просто не знает этого стиля. Ни один из вариантов даже примерно не соответствует запросу. Kandinsky с задачей справился отлично, центральная пара труженика и труженицы украсила бы любой плакат 1930-х. Техника не указывалась, так что некоторая компьютерность не является ошибкой.

Икону с Юрием Гагариным или просто абстрактным космонавтом «Шедеврум» рисовать отказался, так что пришлось подойти к вопросу совмещения несовместимого творчески:

«Космонавт в открытом космосе в традициях византийской мозаики»

Трудно сказать, насколько у «Яндекса» получилось соответствовать традициям византийской мозаики, но стену советского НИИ подобной мозаикой украсить бы не постеснялись. Результат очень хороший. В принципе, выданное Kandinsky изображение тоже соответствует запросу. Правда, к мозаичному стилю он немного добавил реалистичности, так что в итоге техника смешанная, византийская традиция нагляднее, результат очень интересный, но не совсем тот, которого ожидаешь.

Ладно, может быть, «Шедеврум» сумеет отыграться при очень подробном описании чего-нибудь классического?

«Веласкес Менины»

«Менины» Веласкеса в прочтении что «Шедеврума», что «Кандинского» получаются своеобразными. Кстати, самому господину Диего Родригесу де Силве и Веласкесу, в отличие от короля Филиппа IV и его семьи, «Яндекс» отказал в праве быть личностью, которую нельзя изображать. Нейросети от «Сбера», в принципе, все равно, кого рисовать, но в данном случае никакого преимущества она от этого не получила. Даже примерно повторить мировой шедевр ни один из ИИ не смог, «Шедеврум» предпочел сотворить нечто в стиле французов XVIII века, тогда как «Кандинский» придал полотну голландские нотки, а Габсбургов наградил Базедовой болезнью.

Раз уж с классическим искусством не задалось, то давайте-ка проверим, как там у «Яндекса» с блоком на реальных людей:

«Пол Пот пьет компот»

Чистая и безоговорочная победа «Шедеврума». Kandinsky 2.1 явно не понял, кто такой Пол Пот, так что у него просто компот в каких-то странных емкостях. А вот к ограничениям «Яндекса» у меня большие вопросы. Да, нет никакого портретного сходства, но на двух вариантах явно мужчина из Юго-Восточной Азии, так что нейросеть явно поняла, о ком шла речь в запросе.

Попробуем теперь, что будет, если прямо упомянуть личность относительно известную, но под творческим псевдонимом:

«Нергал из Behemoth скрывается в лесу на берегу Балтики»

ИИ «Яндекса» понял, что он ничего не понял, поэтому комментировать тут нечего. Поисковик, разумеется, по запросу «Нергал из Behemoth» легко находит нужного человека. У Kandinsky 2.1 попадание оказалось 100%, полученная картинка вполне могла бы пойти в промоматериалы группы и на оформление буклета для CD.

Но давайте разбираться с тем, почему ошибся «Шедеврум», все же имя Нергал не застолблено за одним польским музыкантом:

«Нергал с булавой и изогнутым мечом над поверженным врагом молящим о пощаде»

На просьбу повторить рельеф по описанию из «Википедии» «Шедеврум» выдал какую-то очень брутальную фэнтези, которая намекает на то, что искусство изучалось скорее по видеоиграм. Но самое главное — ни на одном из четырех вариантов нет ни булавы, ни изогнутого меча, ни поверженного врага, молящего о пощаде. Но на этот раз с Kandinsky 2.1 у него ничья. ИИ «Сбера» выдал нечто невразумительное.

Последняя попытка дать «Шедевруму» возможность наконец-то разобраться с искусством Древнего мира:

«Суппилулиума читает законы царя Хаммурапи»

Чтобы «Яндекс» разрешил хеттскому царю ознакомиться с юридическим документом царя вавилонского, пришлось пойти на небольшой обман, но результат того стоил. «Шедеврум» понял, о чем речь, и, в общем-то, с изображением царей Древнего мира справился. И даже на одном из вариантов можно признать Суппилулиуму I, если добавить чуть-чуть воображения. Прочие варианты почему-то не про хеттов и вавилонян, а про Египет. Но, в целом, приемлемо. А вот у Kandinsky 2.1 получилось почти идеально. Совершенно не исторично, но как эскиз к сцене из художественного фильма про Хеттское царство XIV века до н.э. подойдет.

Оставим древних царей и попробуем попросить нарисовать что-нибудь современное. Например, реалистичного Крокодила Гену:

«Крокодил гена фотореализм»

Провал в обоих случаях. Можно, конечно, сказать, что с анатомией у крокодилов от «Яндекса» несколько получше (у них хотя бы зубы растут нормально), но просили-то совсем другое!

С Геной не получилось, может быть, выйдет с Чебурашкой?

«НЛО похищает Чебурашку»

«Шедеврум» демонстрирует, что он знает, что такое НЛО и карикатуры, но с Чебурашкой что-то пошло не так. У «Кандинского» получился результат, который мне понравился. Это совершенно не то, что просили (зверек больше похож на Мориса из «Мадагаскара», а НЛО вообще нет), но в итоге вроде как что-то угадывается, даже миленькое. Кракозябры от «Яндекса» я бы в ленту не повесил, а это вполне.

Любимый всеми жанр — нейросеть и идиоматические выражения:

«Конь в яблоках надевает коричневое пальто в гримерке театра»

Проверка на понимание того, что конь в яблоках — это не блюдо, пройдена отчасти. Обе нейросети не знают про такой окрас, но и кулинарией не увлекаются. Глаголы «надевать» и «одевать», похоже, тоже не спутались, хотя в случае с «Яндексом» вообще непонятно, а где же, собственно, пальто. Гримерку театра вместить не смог никто, а «Сбер» зафейлил еще и анатомию коня.

Ну и напоследок давайте попробуем посмотреть, как генеративный ИИ видит редакцию Mobile-review:

«Редакция издания mobile-review.com»

На абстрактный запрос про интернет-издание Kandinsky 2.1 дал такой же абстрактный ответ, в котором, тем не менее, как и в хорошем произведении абстрактного искусства, можно без труда угадать ответ. Набор букв вместо надписи — это норма даже для куда более зрелых ИИ, так что тоже можно считать, что результат отличный. Творчество «Шедеврума» я даже затруднюсь оценить. Верхние два варианта максимально далеки от любого из слов в запросе, нижние два не слишком подходят даже под определение «редакция издательства». Впрочем, у «Яндекса» же вроде как тоже заявлена поддержка английского языка, так что причина, по которой его смутил адрес сайта, совершенно непонятна.

Что хотели получить создатели

Что важно отметить? «Сбер» за прошедший под санкциями год однозначно поднаторел в деле их обхода. Запуск сразу на нескольких платформах (телеграм-бот, два сайта, платформа ML Space и умные устройства с системой «Сбер Салют»), бешеный прирост аудитории, при этом без падения серверов. Это отличный результат. Приемлемо то, что мало стилей, не все идиомы понимаются верно, присутствует некоторое однообразие образов. Это нормально для бета-версии. Собственно, причина запуска — это набрать тот самый опыт, обучить модель. Это уже второй подход, ранее компания делала ограниченно доступной версию 2.0, но 2.1 была фундаментально переработана, так что хотя навыки предыдущей версии удалось сохранить, сам процесс генерации изменился, и в лучшую сторону. Модель знает 101 язык (не совсем понятно, действительно ли в «Сбере» рассчитывают на мировое признание), умеет смешивать изображения, создавать похожие на референс, дорабатывать картинку, работать в режиме бесконечного изображения. Т.е. налицо готовый к употреблению продукт, с помощью которого уже можно закрывать некоторые дизайнерские задачи. Кстати, интересно, что понимание стиля, в котором создается изображение, не в точности соответствует понятию стиля в искусствоведении, так что фактически можно экспериментировать и добиваться результата за пределами заявленных возможностей.

Все не так уж плохо и у «Яндекса», если мы примем за факт, что это «альфа». Однозначный жирный плюс — приложение а-ля Instagram*. Плюс — возможность выбрать из нескольких вариантов для детальной прорисовки. Собственно, принцип работы по методу каскадной диффузии предполагает, что вначале создается изображение меньшего разрешения, а потом оно дорабатывается до более высокого. Логично было использовать возможность на каком-то этапе передать выбор от нейросети собственно пользователю, а не выдавать единственный результат. Приемлемо — отсутствие возможности миксовать изображения. В отличие от «Сбера», который ничего не говорит о том, как сейчас обучается «Кандинский», «Яндекс» заявляет, что прямо сейчас, пока вы создаете свои картинки с котиками, «Шедеврум» продолжает учиться на примерах из БД на 500 млн пар «изображение-текст». Для понимания, выпущенная версия обучалась на 240 млн пар. Мультиплатформенность достигается только за счет использования AppStore и Google Play, интеграции в голосового помощника наподобие сберовской в планах пока не упоминается. Художественный стиль нейросеть понимает с искусствоведческой точки зрения, но с подражанием не конкретному живописцу, получается плохо, что можно видеть на примерах выше. Однозначно расстраивающий момент — отсутствие даже десктопной версии, хотя это явно поправимо.

Сам факт, что в России на отечественных платформах отечественные разработчики создают генеративные ИИ, не может не радовать. Можно сколько угодно иронизировать над импортозамещением, но во многих областях оно открывает окно возможностей, которыми пользуются отечественные компании, и не без успеха. А их успех — это доступ для нас к качественному продукту на уровне мировых аналогов. В условиях, когда зарубежные в любой момент могут либо оказаться заблокированными, либо превратиться в инструмент пропаганды, это безусловное благо. Но даже без оглядки на ситуацию генеративный ИИ, обученный и понимающий русский язык, представляет большую пользу для русскоязычного Интернета. Нейросети существенно продвинули качество машинного перевода, но все же для создания интересных и детализированных запросов требуется знание языка на очень высоком уровне. В случае с созданием изображений нужна еще и специфическая лексика, так что полноценное использование нейросети для перевода текста в изображение все же гораздо удобнее, когда общение происходит на вашем родном языке. Так что и «Яндекс», и «Сбер» сейчас ведут очень важную для нас с вами работу.

Нет сомнения в том, какова практическая польза от генеративных моделей, но давайте оценим, что уже доступно с «Шедеврумом» и Kandinsky 2.1. Нейросеть «Яндекса», как мне кажется, имеет большой потенциал, если рассматривать ее как проект на стыке генеративного ИИ и соцсети. Именно в этом может быть сила проекта. Но говорить о том, насколько это реально, очень рано. Пока «Шедеврум» не тянет даже на развлечение, не говоря уже о том, чтобы использовать его возможности неким практическим образом. Я не считаю, что сейчас вообще уместна какая-то оценка данного ИИ, оценивать можно будет по тому, как «Яндекс» отреагирует на критику и отзывы и что практически удастся реализовать его команде.

Что касается «Сбера», то Kandinsky 2.1 уже сейчас может как развлекать (похвалим за интеграцию в умные ТВ, теперь можно еще одним способом развлечь компанию любого возраста), так и служить практическим подспорьем. Конечно, не сказать, что это готовый инструмент для создания баннеров и иллюстративного материала, но для себя я точно нашел неплохую альтернативу бесконечному рытью в базах стоковых фотографий. Вероятно, уже в ближайшем выпуске «Пятницы будущего» часть изображений будут отданы на откуп нейросети.

*Компания Meta Platforms, в которую входят социальные сети Facebook и Instagram, признана экстремистской организацией и запрещена в РФ.

[email protected]
наверх