GigaChat и UdioAI. Фаворит и андердог?

Всем привет!

В прошлой статье мы слегка прошлись по возможностям UdioAI, послушали довольно качественные композиции, в том числе и полностью сгенерированные платформой. Не без оснований считаю UdioAI фаворитом среди аналогов, но сегодня в синем углу ринга у нас не аналог, а обновленный GigaChat от «Сбера», который научили генерировать музыку.

Кроме всего прочего, он умеет:

Генерировать тексты и изображения по текстовому запросу, писать и оптимизировать программный код, создавать инструкции для всяких бытовых и кулинарных ситуаций, в общем, наш ответ ChatGPT.

«Сбер» утверждает, что в некоторых специальных задачах и тестах его детище оказалось более эффективно, чем иностранный аналог. Система оценки и методы опросов мне не совсем понятны, но циферкам я верю, наверняка в чем-то наше решение и правда эффективнее.

Платформа представлена сайтом и ботами с мини-приложениями в ВК и «Телеграм». Как водится, мини-приложения не очень удобны, поэтому идем на сайт. Регистрация по номеру телефона, через Сбер ID ‒ это что-то новое (хотя в SunoAI с некоторых пор тоже доступна такая возможность регистрации, но зачем это все – мне непонятно). Угрожают надписью «Без VPN», хотя это сомнительное преимущество ‒ все ИИ-чаты, которыми я пользуюсь, прекрасно живут в «Телеграм». Для авторизации нужен российский IP-адрес, возможно, один из способов борьбы с DDoS.

Привычным движением снимаем выставленную «по умолчанию» галочку о рассылке рекламных материалов, и мы в веб-версии GigaChat. Все симпатично, лаконично и светло ‒ темные фоны Suno и Udio уже порядком поднадоели. Предлагают предпросмотр возможностей, но мы тут из-за музыки, поэтому смело скипаем.

К сожалению, сразу выясняется, что нейросеть не поддерживает музыкальный редактор привычного вида. Это грустно, но ожидаемо ‒ все-таки перед нами аналог ChatGPT, а не музыкального ИИ-сервиса.

Внешний вид мини-приложения в «Телеграм» и ВК не различается, поэтому идем в «Телеграм» ‒ там оно хотя бы открывается в отдельном окне.

Окошко в «телеге» поменьше, но его можно немножко расширить.

Простой тест: генерация всей песни самим чатом с использованием предложенных вариантов.

Примерно 40 секунд, и трек готов. Название песни тоже сгенерировано. Приложение предлагает выбрать одну из двух почти одинаковых сгенерированных обложек, и можно сохранять. Сохраняется трек в единственном формате *mp3, а текст названия превращается в набор цифр и букв латиницей. Если после генерации нажать кнопку «Сохранить», то мини-приложение закрывается и трек сохраняется в чат-бот, а весь прогресс по жанровым промптам будет потерян. Обратите на это внимание: промпты лучше сохранять до генерации в блокнотик, вдруг они окажутся удачными. Регулировки звука тоже нет, лучше сразу сделать потише.

Итак, слушаем:

снежная-грёза-(gigachat)

Вечер. Зимняя погода.

Огоньки в домах горят.

Белоснежная природа

И таинственный закат.

Тихо падают снежинки,

Серебрятся на ветвях.

Эти белые пушинки

Удержать хочу в руках.

На ладонях быстро тают,

Оставляя мокрый след.

Незаметно исчезает

В сумерках заката свет.

вечер-у-камина-(gigachat)

Вечер. Комната. Камин.

Пламя лижет дров поленья.

В окнах вьётся серпантин

Белоснежного круженья.

Свет качает по углам

Отражения предметов,

И роняет по столам

Блики лампового света.

Чай с малиной и медок.

Стул. Окурки сигареты.

Чуть нагревшийся песок

Из остывшей с лета Леты.

Разработчики не соврали, звучит действительно почти на уровне первой версии SunoAI, голоса искусственные, автотюн зашкаливает, музыка довольно примитивная. Во втором треке я изменил промпт, добавив: «грустный и размеренный джаз, пианино, контрабас» ‒ уж очень музыкальный выбор нейросети был неуютный и не вечерний. Похоже, что связи между темой песни и жанровым промптом нет. Контрабас во второй версии, кстати, не слышно ‒ если он и есть, то прячется за фоновым шумом.

Между делом выяснился досадный минус ‒ библиотеки хранения сгенерированных композиций нет. В третий раз мне повезло и с текстом, и с музыкой, но я нажал не «Сохранить», а «Попробовать еще раз», и неплохая версия канула в Лету, которая неожиданно возникла в стихах второй версии. Кстати, очень интересные строки:

«Чуть нагревшийся песок
Из остывшей с лета Леты»

Вообще, текстовые генерации выглядят очень симпатично, чувствуется поэтическая «русскость». Четырехстопный хорей и перекрестная рифмовка ‒ явные отсылки к нашим классикам. Стилистически выверено, никакого смысла, символизм и образность ‒ красота. Настоящий зимний вечер, если бы генерация голоса не подкачала.

Попробуем что-нибудь наваять. Символов можно вставить не более 500, но мы и не поэму пишем. Теги в тексте, структурирующие музыкальную композицию, GigaChat не поддерживает, просто с удовольствием пропоет [Вступление] или [Проигрыш] и пойдет дальше. Также не поддерживается выделение ударений титлами или прописными буквами ‒ генерация за генерацией выдает самые разные ударения на сложных словах.

Зато поддерживает произвольную форму обращения к музыкальным жанрам, что и показано в примере.

В текст вставил замечательное и любимое стихотворение А. и Б. Стругацких, в музыкальном промпте пишем: «бардовская песня, бард-рок, женский вокал, медленно», в нем можно указать 400 символов, но попробуем попроще.

у-камина-(gigachat)

После десятка промптов это лучшее, что получилось…

Попробовал отказаться от оригинального текста, и стало намного веселее. Вполне приятная мелодия и намного более приемлемый вокал.

мелодия-сонета-(giga-chat)

Свои тексты GigaChat понимает намного лучше, но это и неудивительно.

Пробуем в кантри.

за-мечтой-на-западный-лучик

Промпты на английском понимает, вроде даже как-то пытается соответствовать. Это примерно пятая версия. Сгенерировав 50-60 композиций, я заметил, что простейший рисунок текста уже надоел. Вот вроде и симпатичные тексты, но совсем примитивно получается. Стругацкие здесь просто как аптечка.

Пробуем без текста, и сразу видно улучшение, как будто замученный чат вздыхает с облегчением. При этом мелодическая простота, если не сказать пустота, становится намного более заметной.

Вот для примера GigaChat и трек от UdioAI. Промпты: western country, traditional country, Spaghetti western. Я знаю, что нельзя сравнивать, но это для понимания ощущения глубины.

кантри-без-слов-(gigachat)

dusty-trails(udioai)

Скорость генерации одинаковая, но пропасть между глубиной детализации огромная. У GigaChat прям навязчивая такая зашумленность даже в комбинации из двух-трех инструментов. Хотя мелодия очень приятная.

Что еще заметил: в треках отечественной нейросетки плохо читаются начало и конец композиции. Как будто трек вырван из чего-то большего ‒ начало врывается неожиданно, финал обрывается внезапным затуханием. Длина треков произвольная, может быть, в этом и дело, надеюсь, эту настройку прикрутят и нейросеть, ограниченная рамками, лучше воспримет переменную времени.

Генерации оркестра пробовать не хочу, и так понятно, что там будет какофония шума.

При этом отдельные озорники-умельцы добиваются вполне задорных результатов. Трек за авторством некоего CovaxToday.

заяц-трудоголик-(gigachat)

По мне так вполне симпатично, если ни с чем не сравнивать, конечно.

Каков итог.

Поделка, без сомнения, интересная, но все это выглядит как первые попытки «Шедеврума» в генерацию картинок. Такой же шум и такие же странные выверты молодой генеративной системы.

При этом стихоплетство уже на достаточно интересном уровне, и бот ловко использует русский язык ‒ точно ничем не хуже ChatGPT. Примитивность функционала, конечно, огорчает, но ждать от обновления, прикрученного в угоду актуальности, богатства красок специальных платформ не стоило изначально.

С другой стороны, это несомненное движение вслед за убегающим будущим. Может, и догонят, организация все-таки серьезная и может привлечь в конкретное направление светлые умы и существенные суммы.

Отмечу, что в повседневной жизни сберовским чатом не пользовался никогда ‒ ChatGPT появился раньше и давно встроился в мою жизнь как быстрый способ поддержки в десятках разных вопросов.

Думаю, надо обкатать прочие возможности GigaChat, которые создатели активно рекламируют. Допускаю, что некоторые из них могут приятно удивить. Если хотите, рассмотрю кейсы использования и оценю перспективы после более детального знакомства, скажем, недельки через две.

Чтобы немножко разбавить шум в голове, случившийся после прослушивания композиций из этой статьи, предлагаю приятный бонус.

Джаз от UdioAI с простейшим «вечерним» промптом и с первой генерации:

сумеречные-эмоции-(udioai)

И прекрасное кантри от заслуженного автора из общей библиотеки UdioAI:

storms-comin-(udioai)

Ну и вообще, рекомендую заглянуть в местный музыкальный фонд, там много выдающихся композиций. Надеюсь, однажды, смогу сказать то же самое и про какую-нибудь отечественную музыкальную платформу.

Продолжаем вести наблюдение!

Фотокарточка для самых утонченных поклонников каверов UdioAI

00:01, 3 марта

Владимир Никифоров

UdioAI и GigaChat. Фаворит и андердог?

Ажиотаж вокруг генеративной музыки несколько снизился, хотя на арену продолжают выходить новые искусственные лица. Но силачи ли они? Диванное сравнение топового музыкального ИИ со свежим обновлением от «Сбера». В двух частях.

00:01, 3 октября

Владимир Никифоров

ChatGPT и Suno. Взгляд и опыт ленивого футуролога

Смартфон и телевизор с AI, умная колонка с GPT — искусственный интеллект стал маркером новизны и…

GigaChat и UdioAI. Фаворит и андердог?

Trouver E30 Aqua: недорогой робот-пылесос с премиальным качеством уборки

Субботний кофе №378

Обновленный кроссовер Omoda C5. А стал ли он лучше?

Обзор умного диктофона Mobvoi TicNote (NE-79). Зачем диктофону ИИ?

Флагман среднего сегмента realme 16 Pro+. Мастер портрета

Ваш следующий телевизор Samsung – Samsung QLED или с технологией микро-светодиодов RGB

Что дарить на 8 марта? Полезные подарки к женскому дню

Чем хорош iQOO 15R: минимум маркетинга, максимум результата

UdioAI и GigaChat. Фаворит и андердог?

ChatGPT и Suno. Взгляд и опыт ленивого футуролога