Привет.
Нам талдычат, что нейросети уже научились творить, но это всегда художественное преувеличение. «Сбер» выпустил новую версию «Кандинского», до этого нас разогревали картинками, которые, возможно, не поражали воображения, но выглядели очень любопытными. Одно дело — смотреть результаты чужих экспериментов, совсем другое — попробовать все своими руками и вынести суждение. Ниже — результаты эксперимента в официальном боте «Кандинского» для модели версии 3.1.
Начнем с простого запроса: «Красивая кошечка сидит на заборе свесив ноги». Стиль — цифровая живопись.
И вот что получилось.
Лишние хвосты, странные лапы. Все это присутствует в полном объеме, назвать картинку качественной можно только в одном случае — если вы не приглядываетесь к ней.
Запрос «Пианист в кокошнике играет на белом рояле мурку».
А вот что получилось.
С руками полная беда, то они длинные, то их много. Пианист — только один раз мужчина. В целом, с задачей нейросеть справилась весьма посредственно. Но это и не то, что обычно спрашивают, таких картинок в реальной жизни нет, это скорее попытка вообразить что-то несуразное. Какой вопрос, такой и ответ.
Давайте попросим нечто, что может быть реальным: «смартфон Nokia с шестью камерами цвета фуксии».
И вот что получилось в итоге.
Модель работает плохо, так как ищет примеры смартфонов Nokia, но не умеет дорисовывать к ним нужное число камер, да и с цветом корпуса выходит промашка. Использовать такие картинки где-либо невозможно.
Попробуем поработать с текстом: «Красивая надпись «Будущее не за горами», неоновый шрифт».
И вот результаты.
Начнем с того, что нейросеть не умеет рисовать на русском языке, она даже переводит надпись на английский (продукт точно российский?). Но и восстановить надпись нельзя, понять, что написано, никак невозможно.
С пониманием и трактовкой смысла у нейросети большие проблемы, она не распознает контекст и тут можно изгаляться как угодно. Смотрим на запрос: «Девушка как овца».
Вот что вышло.
Пара картинок плюс-минус совпадают с запрошенным, а вот третья изображает девушку и овцу. Произошло смешение понятий.
Попробуем запрос «Девушка змея».
Результат получился, мягко говоря, странным. Хотя аллюзия на женщину-змею тут очевидна, поиск нейросети осознать этого не может, он просто не умеет этого делать.
Пробуем другой запрос: «Дети играют в футбол на пляже, солнце светит в левом углу, на воде видны барашки, девушка в ситцевом платье стоит справа».
Барашки в данном контексте — это не животные, но в итоге мы получаем их. Солнце светит в разных углах, тут нет правильного расположения. И тут мимо.
Упростим задачу, попробуем массовую культуру: «Барби обнимает собаку на причале, вдаль уходит корабль».
Композиция пару раз угадана, но всегда есть огрехи, один снимок с натяжкой получился хорошим. И это действительно пример, когда нейросеть с задачей худо-бедно справилась.
Вернемся к игре, когда мы пытаемся придумать что-то необычное: «Батька в космосе чинит картофелину». Думаю, что всем живым людям понятен контекст.
Никакой починки в космосе не происходит, глагол для нейросети неизвестен, также как и такой предмет, как картофелина (нужно писать «картошка», и тогда все будет иначе).
Запрос «Взрыв на макаронной фабрике».
Трактовка буквальная, хотя мы понимаем, что обычно эта фраза употребляется совсем в ином контексте. Есть и запретные фразы, когда нейросеть ограничивает выдачу результата.
Попробуем переформулировать запрос: «Жизнерадостный человек с улыбкой на лице».
Ухххх, тут просто раздолье для веселья. Попробуем что-то сюрреалистическое: «Спортсмен с шестом прыгает через носорога».
Тоже получается как-то удивительно, образы для нейросети незнакомы, результат выглядит сомнительным.
Обратил внимание, что модель при генерации людей, как правило, придерживается одного выбранного лица, не меняет его, а изменяет детали картинки. Нашел ориентировку на человека и просто вбил ее в поле для создания картинки.
Полученный результат выглядит странным, но не самым плохим из возможных. Зато нейросеть отлично подходит для коллективной игры в ассоциации, называете слово, затем следующий человек — еще одно слово, и затем вы рисуете картинку. Вот так от одуванчика мы дошли до пива.
Наконец можно использовать запросы, которые приходят на ум, и смотреть, что происходит.
К сожалению, «Кандинский» не умеет рисовать по текстовым запросам так, чтобы получалось хорошо, на данный момент это игрушка и ничего более. Впрочем, как и большинство других подобных продуктов в их бесплатной версии. Считать, что такой продукт заменит иллюстратора или художника, нельзя. И это не считая юридических вопросов, а просто говоря о качестве получаемых изображений. Мне сложно предвидеть, как долго нужно эволюционировать таким системам, чтобы стать как минимум удобоваримыми. Но речь явно идет не про один-два года, а про отрезок в пять-десять лет.
Генеративную модель, которая создает изображения, тяжело сделать всесторонней и понимающей любые запросы пользователей. Точка.
Это НЕ искусственный интеллект, который понимает "простым языком", как ему рисовать, чтобы получить достойный результат нужно составить вменяемый промпт, негативный промпт, подключить экстрасети, эмбединги, настроить гайданс, и иже с ними…
Голый SDXL также выдаст ну немногим лучший результат.
>Начнем с того, что нейросеть не умеет рисовать на русском языке, она даже переводит надпись на английский (продукт точно российский?).
Под капотом CLIP (Не ruCLIP как в рудали) насколько понимаю. Может сбер-ребята, если читают MR, поправят в комментариях.
>К сожалению, «Кандинский» не умеет рисовать по текстовым запросам так, чтобы получалось хорошо
По хорошему, чат-бот это сугубо развлекаловка — неизвестно, сколько шагов денойзинга задано, скорее всего минимальное количество, чтобы не грузить дорогие GPU, нет возможности гибко управлять весами, даже негативного промптинга нет, и так далее.
Но последний раз работал только с последней 2.х моделью, она после кислотного ада ранней 2.0 показывала вполне вменяемый результат.
Естественно, Stable Diffusion XL на голову выше. Да и готовых LoRA куча. Да и свою изготовить даже на бытовой видеокарте (хоть и высшего ценового сегмента) — вполне возможно.
Жена по подписке использует Leonardo Ai. Я бесплатным аккаунтом пользуюсь. Иногда получаются вполне себе достойные работы. Позволяет сделать ремикс готового изображения (из поисковой выдачи) и даже скорректировать отдельные детали получившегося изображения (пальцы изменить или глаза поправить). Плюс допускает любое использование последующего кадра. Хоть в коммерческих целях, хоть в любых других. Недавно делал изображение на открытку и решил вспомнить про бот Кандинского. Быстро отказался от затеи. Как-то не то.
Mikhail Volkov, Для серьезной нейрорисовки, конечно, желательно иметь 4080+ на 16Gb и automatic1111 в качестве вменяемого GUI для нейрорисования, у себя, как говорится, на своем железе.
Сегодняшний темп развития подобных моделей позволяет легко рисовать крайне сочные концепты и арты без привлечения реальных художников. Без обид для последних, я понимаю, что ручная работа в любом случае будет лучше.
Gray, ,
>> желательно иметь 4080+ на 16Gb и automatic1111 в качестве вменяемого GUI для нейрорисования, у себя, как говорится, на своем железе
Для меня звучит сложновато. И в плане «разобраться», и в плане железа (в моём буке RTX 2060 на 6 Гб).
Mikhail Volkov, Аргумент -medvram вам в помощь, с ним можно работать с автоматиком и с 6 Гб памяти.
Mikhail Volkov, Такая дичь в результатах связана ещё и с тем, что исходные данные, на которых тренировали модель, написаны на английском языке. Более того, скорее всего и модель написала на английском языке даже без попытки её перевести, а при запросе происходит простой машинный перевод вашего промта на ангельский язык. Отсюда и все косяки. Короче говоря, никаких намёков на то, что это российская нейросеть, так как её и не подумали, пусть даже с помощью каких-то костылей, подогнать под русский язык.
Gray, Факт в том, что прямая работа с SD, моделями и лорами и тд — и есть промт-инжениринг, а не эти ущербные песочницы для казуалов 🙂
Пианистка троеручица…
Ну, не считая откровенных косяков с дефектами изображения, даже от живого человека получить внятную картинку по ТЗ из 2-3 слов довольно проблематично. Он художник — он так видит)))
Константин, Клетчатый 🙂
мимoпроходил, Ага)))
Насчёт фильтров и блокировок определённых фраз) Как-то развлекался тем, что заставлял Кандинского рисовать "запрещёнку", делая запросы без пробелов или с повторами слогов и букв. Там прямо видно, что "тектовый цензор" контекст не понимает и пропускает фразу как нормальную, а сама рисовательная нейросеть отлично "понимает" по набору букв, что от неё хотят и уже рисует то, что при прямом запросе "ой нет, я не буду этого рисовать"))))
Этот кандинский лучший из бесплатных. В платных нет таких проблем, но стоят они дорого. Та же midjourney начинается от 30$ в месяц, и за эти деньги вы получите порядка 900 картинок, там все тарифы с лимитом.
И сразу за Кандинским последовал Яндекс.
YandexART 1.3. перешла на новую технологию для генерации изображений — латентную диффузию. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза.
На роль игрушки это тоже не тянет. Ерунда, напоминающая рекламные открытки. Абсолютно бесполезная.
Bubo Bubo, Оно еще думать само не научилось, а раздвоение личности уже налицо…
ВОзможно вы слишком примитивно задавали вопросы. Я вот генеировал изображения персонажей древнего Вавилона — у меня кадинский справился на ура. КОнечно не каждая фото шедевр но за час смог сделать 30 хороших картинок
Сергей Лукьянов, Хорошие они потому, что мало кто знает, как выглядели реальные персонажи древнего Вавилона.
Поигрался я вчера с версией 3.1
Что хочу сказать, как по мне генерить картинки в фотокачестве стал хуже чем старая версия. Что то перемудрили там. Ещё пейзажи стал хуже генерить.
Dmitry Mitry, был лучше Шедеврума, но версия 3.1 стала хуже.
Сергей Лукьянов, Тут от Вавилона ничего нет.
Lecron, а кто знает хоть что-то про Древний Восток, тот даже не спрашивает, какое отношение сии картинки имеют к Вавилону)))
Сергей Лукьянов, Мне кажется, или глаза у ребёнка разные? Пальцы на руках на этих фото не посчитать
Dmitry Mitry, Я не понимаю, как можно осмысленно работать с платными нейросетями при ограничении генераций. Мне нужно было для себя в свободное время сделать набор из всего-лишь 50 картинок на заданные сюжеты, для этого за один месяц я произвел более 25000 генераций на домашней видеокарте при помощи Automatic111. Не говоря уже о том, что без своей собственной Lor'ы и таких вещей как Sketch, Inpaint, ControlNet то, что мне было нужно, просто невозможно сгенерировать ни в Midjourney, ни в DALL-e, ни где-либо еще. Наверное, существуют какие-то сценарии, когда можно запросить что-то расплывчатое и с третьей-четвертой попытки получить что-то полезное и в целом похожее на то, что было нужно, но это явно не мой случай.
El_Presidente, Платные нейросети гораздо лучше бесплатных. В бесплатной у вас минимум 90% отправится в мусор из-за разнообразных артефактов.