Всем привет!
В прошлой статье мы слегка прошлись по возможностям UdioAI, послушали довольно качественные композиции, в том числе и полностью сгенерированные платформой. Не без оснований считаю UdioAI фаворитом среди аналогов, но сегодня в синем углу ринга у нас не аналог, а обновленный GigaChat от «Сбера», который научили генерировать музыку.
Кроме всего прочего, он умеет:
Генерировать тексты и изображения по текстовому запросу, писать и оптимизировать программный код, создавать инструкции для всяких бытовых и кулинарных ситуаций, в общем, наш ответ ChatGPT.
«Сбер» утверждает, что в некоторых специальных задачах и тестах его детище оказалось более эффективно, чем иностранный аналог. Система оценки и методы опросов мне не совсем понятны, но циферкам я верю, наверняка в чем-то наше решение и правда эффективнее.

Платформа представлена сайтом и ботами с мини-приложениями в ВК и «Телеграм». Как водится, мини-приложения не очень удобны, поэтому идем на сайт. Регистрация по номеру телефона, через Сбер ID ‒ это что-то новое (хотя в SunoAI с некоторых пор тоже доступна такая возможность регистрации, но зачем это все – мне непонятно). Угрожают надписью «Без VPN», хотя это сомнительное преимущество ‒ все ИИ-чаты, которыми я пользуюсь, прекрасно живут в «Телеграм». Для авторизации нужен российский IP-адрес, возможно, один из способов борьбы с DDoS.
Привычным движением снимаем выставленную «по умолчанию» галочку о рассылке рекламных материалов, и мы в веб-версии GigaChat. Все симпатично, лаконично и светло ‒ темные фоны Suno и Udio уже порядком поднадоели. Предлагают предпросмотр возможностей, но мы тут из-за музыки, поэтому смело скипаем.

К сожалению, сразу выясняется, что нейросеть не поддерживает музыкальный редактор привычного вида. Это грустно, но ожидаемо ‒ все-таки перед нами аналог ChatGPT, а не музыкального ИИ-сервиса.
Внешний вид мини-приложения в «Телеграм» и ВК не различается, поэтому идем в «Телеграм» ‒ там оно хотя бы открывается в отдельном окне.

Простой тест: генерация всей песни самим чатом с использованием предложенных вариантов.

Примерно 40 секунд, и трек готов. Название песни тоже сгенерировано. Приложение предлагает выбрать одну из двух почти одинаковых сгенерированных обложек, и можно сохранять. Сохраняется трек в единственном формате *mp3, а текст названия превращается в набор цифр и букв латиницей. Если после генерации нажать кнопку «Сохранить», то мини-приложение закрывается и трек сохраняется в чат-бот, а весь прогресс по жанровым промптам будет потерян. Обратите на это внимание: промпты лучше сохранять до генерации в блокнотик, вдруг они окажутся удачными. Регулировки звука тоже нет, лучше сразу сделать потише.
Итак, слушаем:
Вечер. Зимняя погода.
Огоньки в домах горят.
Белоснежная природа
И таинственный закат.
Тихо падают снежинки,
Серебрятся на ветвях.
Эти белые пушинки
Удержать хочу в руках.
На ладонях быстро тают,
Оставляя мокрый след.
Незаметно исчезает
В сумерках заката свет.
Вечер. Комната. Камин.
Пламя лижет дров поленья.
В окнах вьётся серпантин
Белоснежного круженья.
Свет качает по углам
Отражения предметов,
И роняет по столам
Блики лампового света.
Чай с малиной и медок.
Стул. Окурки сигареты.
Чуть нагревшийся песок
Из остывшей с лета Леты.
Разработчики не соврали, звучит действительно почти на уровне первой версии SunoAI, голоса искусственные, автотюн зашкаливает, музыка довольно примитивная. Во втором треке я изменил промпт, добавив: «грустный и размеренный джаз, пианино, контрабас» ‒ уж очень музыкальный выбор нейросети был неуютный и не вечерний. Похоже, что связи между темой песни и жанровым промптом нет. Контрабас во второй версии, кстати, не слышно ‒ если он и есть, то прячется за фоновым шумом.

Между делом выяснился досадный минус ‒ библиотеки хранения сгенерированных композиций нет. В третий раз мне повезло и с текстом, и с музыкой, но я нажал не «Сохранить», а «Попробовать еще раз», и неплохая версия канула в Лету, которая неожиданно возникла в стихах второй версии. Кстати, очень интересные строки:
«Чуть нагревшийся песок
Из остывшей с лета Леты»
Вообще, текстовые генерации выглядят очень симпатично, чувствуется поэтическая «русскость». Четырехстопный хорей и перекрестная рифмовка ‒ явные отсылки к нашим классикам. Стилистически выверено, никакого смысла, символизм и образность ‒ красота. Настоящий зимний вечер, если бы генерация голоса не подкачала.
Попробуем что-нибудь наваять. Символов можно вставить не более 500, но мы и не поэму пишем. Теги в тексте, структурирующие музыкальную композицию, GigaChat не поддерживает, просто с удовольствием пропоет [Вступление] или [Проигрыш] и пойдет дальше. Также не поддерживается выделение ударений титлами или прописными буквами ‒ генерация за генерацией выдает самые разные ударения на сложных словах.
Зато поддерживает произвольную форму обращения к музыкальным жанрам, что и показано в примере.
В текст вставил замечательное и любимое стихотворение А. и Б. Стругацких, в музыкальном промпте пишем: «бардовская песня, бард-рок, женский вокал, медленно», в нем можно указать 400 символов, но попробуем попроще.
После десятка промптов это лучшее, что получилось…
Попробовал отказаться от оригинального текста, и стало намного веселее. Вполне приятная мелодия и намного более приемлемый вокал.
Свои тексты GigaChat понимает намного лучше, но это и неудивительно.
Пробуем в кантри.
Промпты на английском понимает, вроде даже как-то пытается соответствовать. Это примерно пятая версия. Сгенерировав 50-60 композиций, я заметил, что простейший рисунок текста уже надоел. Вот вроде и симпатичные тексты, но совсем примитивно получается. Стругацкие здесь просто как аптечка.
Пробуем без текста, и сразу видно улучшение, как будто замученный чат вздыхает с облегчением. При этом мелодическая простота, если не сказать пустота, становится намного более заметной.
Вот для примера GigaChat и трек от UdioAI. Промпты: western country, traditional country, Spaghetti western. Я знаю, что нельзя сравнивать, но это для понимания ощущения глубины.
Скорость генерации одинаковая, но пропасть между глубиной детализации огромная. У GigaChat прям навязчивая такая зашумленность даже в комбинации из двух-трех инструментов. Хотя мелодия очень приятная.
Что еще заметил: в треках отечественной нейросетки плохо читаются начало и конец композиции. Как будто трек вырван из чего-то большего ‒ начало врывается неожиданно, финал обрывается внезапным затуханием. Длина треков произвольная, может быть, в этом и дело, надеюсь, эту настройку прикрутят и нейросеть, ограниченная рамками, лучше воспримет переменную времени.
Генерации оркестра пробовать не хочу, и так понятно, что там будет какофония шума.
При этом отдельные озорники-умельцы добиваются вполне задорных результатов. Трек за авторством некоего CovaxToday.
По мне так вполне симпатично, если ни с чем не сравнивать, конечно.
Каков итог.
Поделка, без сомнения, интересная, но все это выглядит как первые попытки «Шедеврума» в генерацию картинок. Такой же шум и такие же странные выверты молодой генеративной системы.
При этом стихоплетство уже на достаточно интересном уровне, и бот ловко использует русский язык ‒ точно ничем не хуже ChatGPT. Примитивность функционала, конечно, огорчает, но ждать от обновления, прикрученного в угоду актуальности, богатства красок специальных платформ не стоило изначально.
С другой стороны, это несомненное движение вслед за убегающим будущим. Может, и догонят, организация все-таки серьезная и может привлечь в конкретное направление светлые умы и существенные суммы.
Отмечу, что в повседневной жизни сберовским чатом не пользовался никогда ‒ ChatGPT появился раньше и давно встроился в мою жизнь как быстрый способ поддержки в десятках разных вопросов.
Думаю, надо обкатать прочие возможности GigaChat, которые создатели активно рекламируют. Допускаю, что некоторые из них могут приятно удивить. Если хотите, рассмотрю кейсы использования и оценю перспективы после более детального знакомства, скажем, недельки через две.
Чтобы немножко разбавить шум в голове, случившийся после прослушивания композиций из этой статьи, предлагаю приятный бонус.
Джаз от UdioAI с простейшим «вечерним» промптом и с первой генерации:
И прекрасное кантри от заслуженного автора из общей библиотеки UdioAI:
Ну и вообще, рекомендую заглянуть в местный музыкальный фонд, там много выдающихся композиций. Надеюсь, однажды, смогу сказать то же самое и про какую-нибудь отечественную музыкальную платформу.
Продолжаем вести наблюдение!
