UdioAI и GigaChat. Фаворит и андердог?

Всем привет!

Со времен моего обзора возможностей SunoAI прошло почти полгода. За этот период многим компаниям пришла в голову мысль добавить в список возможностей своих цифровых продуктов генерацию музыки.

Однако, рассматривая функционал SunoAI, апеллируя к собственному практическому опыту, я решил не проводить сравнительную подборку имеющихся в доступе музыкальных ИИ, тем самым упустив из виду интересную языковую модель.

Так как UdioAI и GigaChat изначально находятся в неравных весовых категориях, я считаю, что целесообразно рассматривать обоих бойцов в противоположных углах ринга по очереди.

00:01, 3 октября

Владимир Никифоров

ChatGPT и Suno. Взгляд и опыт ленивого футуролога

Смартфон и телевизор с AI, умная колонка с GPT — искусственный интеллект стал маркером новизны и…

Итак, в красном углу ринга UdioAI.

Весной 2024 года на бета-тест вышла платформа для генерации музыки ‒ UdioAI. Созданная компанией Uncharted Labs, принадлежащей трем бывшим ведущим исследователям лаборатории искусственного интеллекта Google DeepMind Дэвиду Дину, Чарли Нэшу и Ярославу Ганину, платформа базируется на известных моделях музыкальных нейросетей предыдущих генераций ‒ AudioGen и MusicLM. По идее, должно было получиться интересно, и действительно получилось.

Принцип работы предусматривает разложение музыкального произведения на «слова» ‒ дискретные токены, что позволяет нейросети как бы прочитать очень много слов и уметь предсказывать, какое слово нужно произнести следом. Получается такая нейросетевая «начитанность».

Специалисты сравнивают процесс генерации музыки, основанный на таком принципе, с созданием изображений DALL-E и Stable Diffusion. Нейросети сначала генерируют недетализированные изображения низкого качества, а потом насыщают их деталями, соответствующими общему пониманию задачи. Такой подход мне видится весьма перспективным, тем более что движков для генерации изображения уже хватает, разве что архитектура процесса несколько иная ‒ в отличие от изображения, в музыкальной композиции присутствует особый параметр ‒ время. И вот здесь «начитанность» UdioAI позволяет творить чудеса, ведь именно этому сервису мы обязаны кавер-версиями песен, в которых возникают самые невероятные сочетания стилей, жанров, времен и эпох.

Правда, для того, чтобы создать такой кавер, нужно запастись некоторыми знаниями, терпением и, не в последнюю очередь, платной подпиской.

Создавать же обычные песенки в Udio до смешного просто.

Регистрация в России осуществляется без проблем, достаточно почты или аккаунта в гугле, дискорде или эппл.

Подписка Free. По умолчанию в бесплатном режиме на счет нового пользователя ежедневно начисляется 10 кредитов ‒ это внутренняя валюта. Каждый месяц начисляется еще по 100 кредитов. Один тридцатидвухсекундный трек стоит 2 кредита, двухминутный ‒ 4 кредита. Каждый день бесплатный пользователь может сгенерировать до трех треков длительностью в 130 секунд. Негусто.

Для знакомства с платформой этого хватит, но можно купить подписку через предоплаченные карты (я слышал, их начали продавать даже на Ozon) или онлайн-системы оплаты забугорных сервисов, коих сейчас великое множество.

Подписка Standart стоит 10 баксов, дает 1200 кредитов каждый месяц и безлимитную генерацию для коротких треков. Здесь уже можно загружать и редактировать собственные треки. В бесплатной подписке можно генерировать до 4 треков одновременно, а в стандартной ‒ до 6.

В максимальной подписке PRO доступны все функции, одновременная генерация до 8 треков. Каждый месяц выдается по 4800 кредитов.

Пользователям, знакомым с Suno, интерфейс Udio сразу покажется знакомым. Лаконично, темно и на английском, однако русский язык сервис понимает прекрасно, а сайт можно просто перевести в браузере.

Пишем промпт, он может быть достаточно большим, с кучей тегов, которые помогут более точно направить мысли машины. Например, промпт можно настроить в соответствии со стилем исполнителя: «в стиле Егора Летова» или «Rammstein style» ‒ голосом зарубежного исполнителя Udio петь не будет, но стилистические и вокальные особенности голоса передаст достаточно точно ‒ наши же исполнители похожи еще больше. Мы с ними все-таки не судимся.

У тегов есть удобные автодополнения и предлагаемые варианты ‒ эти инструменты тоже помогут в поисках нового звучания.

Если не хватает фантазии, нажимаем на игральные кости, и сервис генерит нам промпт-запрос самостоятельно, выбираем длину композиции, за это отвечает версионность (udio-32 и udio-130) и жмем Create.

Две-три минутки ждем, и наш трек готов.

За одну генерацию платформа создает два трека.

Интересно, что первый сгенерированный трек частенько лучше второго. Эту закономерность замечал не только я, но и пользователи, которые напридумывали уже сотни треков. Это не правило, но наблюдение забавное.

Трек не мой, но пройти мимо я не смог. Рандомный промпт: «Тайное общество пылевых кроликов под вашей кроватью», в стиле рок.

whispers-in-the-shadows

Вольный перевод:

[куплет]

В тени, где они играют и прячутся

Пыльные кролики видят сны по ночам

Шепот тайн, они близко, но невидимы

Под кроватью, где бьются нежные сердца.

[припев]

Присоединяйся к танцу, мы найдем свой путь.

В этом пыльном мире мы останемся навсегда.

По этому милому треку видно, что в Udio отсутствует привычный пользователям Suno «автотюн», когда псевдочеловеческий голос модулируется непосредственно на мелодию, как бы привязываясь к треку, что делает его неестественным и сразу указывает на искусственное происхождение мелодии. При этом генерится все ловко и достаточно быстро. В общей библиотеке можно послушать чужие творения.

А еще можно побаловаться и в расширенном режиме. На основном экране это кнопочка «Go to Advanced Creation Tools».

Выбор пункта Instrumental позволит создать трек совсем без слов. Это удобно, если хочется сосредоточиться на музыкальной составляющей, а слова добавить позже, через инструмент Extend в библиотеке треков.

Выбрав пункт Custom, мы получаем возможность написания собственного текста.

Кстати, платформа и здесь предлагает свои услуги ‒ текст можно сгенерировать. В поле Lyric Editor для удобства добавлены команды через «/», здесь можно детально проработать структуру трека. Главное, не забывать об ограниченном временном отрезке.

Читал, что Udio не дает генерировать текст, который принадлежит популярным западным музыкальным лейблам, но сам с этим не сталкивался, вот пример:

billie-eilish—skinny-(udioai)

billie-eilish—skinny

Простейший промпт на русском языке (худая, в стиле Билли Айлиш), копирование оригинального текста и вполне себе годный результат с первой генерации.

Не забываем про ударения, это важно, так как шайтан-арба может выдавать совсем уж немыслимые варианты ударений. Удобно использовать такие сервисы.

Еще адская машина любит превращать любой текст в мешанину несуществующих слов из несуществующего языка. Не расстраивайтесь, просто нужна еще одна генерация. Опытные создатели могут слить за день кучу кредитов, так и не достигнув искомого результата.

Инструменты расширенной настройки.

Clip Timing ‒ инструмент, полезный для расширения уже сгенерированного трека или добавления элементов в загружаемый трек (только для платных подписчиков). Можно нагенерить трек, где в конце будет нужный нам текст с мелодией.
Lyric Timing ‒ аналогично предыдущему, но уже про текст. Может очень пригодиться в случае необходимости попасть первым словом в музыкальный акцент или совпасть с началом припева.
Style Reduction – каких жанров или стилей следует избежать. Такая вторичная корректировка промптов от противного.
Prompt Strength ‒ насколько сильно промпт будет влиять на естественность звучания. Значение по умолчанию ‒ 50%, минимальное значение ‒ промпт практически не учитывается и обратно, 100% ‒ ни шагу от промпта.
Lyrics Strength ‒ то же самое, только про текст. При минимальном значении текст может совсем исчезнуть. Вполне подойдет для поверхностного редактирования уже сгенерированного трека.
Clarity ‒ насколько модель должна уделять внимание четкости и разделению инструментов, то есть насколько будут слышны все инструменты, например, у симфонического оркестра.
Seed ‒ интересный инструмент для редактирования, присваивающий треку уникальное значение. Надо не забывать его скопировать, если нужно что-то изменить, например, в промпте.
Generation Quality ‒ просто вертлюжок, который предлагает определиться между скоростью и качеством генерации в целом.

Если купить подписку (да и без нее), можно баловаться довольно долго, но меня интересует искусство. Да и фактуры поднабралось за этот год порядочно.

Заранее поставьте громкость воспроизведения чуть ниже среднего на всякий случай.

Итак, знаменитый «Синий трактор», в исполнении группы Sabaton.

Что мы тут слышим? На самом деле, многое. Автор залил в Udio трек Sabaton, набросал промпты согласно прямому подчинению жанров (что-то типа хэви-пауэр-метал) и закинул в лирику слова из известной детской песенки.

Предполагаю, что первоначально были сгенерированы все куплеты, основанные на кусочках нарезки из оригинального трека, а потом аналогичным образом были сделаны и припевы. Все-таки ограничения по времени существенно затрудняют работу с целой песней.

Возможно, использовалась дополнительная редактура трека и куплеты нарезались в каком-нибудь FL Studio ‒ это вариант для продвинутых, но именно так можно получить максимальный результат, а оттуда и просмотры. Все-таки редактор в самой платформе несколько простоват.

Если хотите пойти по пути кавер-промпт-инженера ‒ без программ типа FL Studio будет сложновато.

Кроме того, клип сделан очень прикольно, прямо такой «Безумный Макс» на синем тракторе. В чем это рисовалось, я не знаю, но сделано с душой и на совесть.

Вообще, больше группы Sabaton создатели и слушатели любят только творчество Михаила Шелега. Sabaton есть во всех мыслимых вариациях, правда, на Рутубе всего этого еще очень мало.

Еще вполне очевидные примеры:

nirvana—я-русский-(udioai)

электроцой—на-заре-(udioai)

Оно хоть и немного юмористическое, но чтобы оценить потенциал, вполне подойдет.

И на сдачу — замечательная история, которая просто эпично иллюстрирует нынешние непростые времена с засильем этих ваших ИИ.

Среди кавер-шедевров, любимые из которых выкладывать сюда я себе не позволю (пишем «ассенизатор UdioAI», там даже Пугачева есть), мне попалась кавер-песня в исполнении AI-Владимира Семеновича на стихи Виктора Третьякова. Послушал я и Виктора Анатольевича. Сравнил и посчитал, что лучшей иллюстрации возможностей Udio просто не найти.

виктор-третьяков—чебурашка

владимир-высоцкий-чебурашка-ai-cover-виктор-третьяков

А потом я начал сомневаться…

Вдруг это и правда оригинальный Высоцкий?! Кто знает этих проказников из Интернета? Как я буду выглядеть в глазах просвещенной публики, если выставлю оригинальную редкую песню в качестве сгенерированной? Слух говорил мне, что сомневаться не надо, но голос разума потребовал информацию перепроверить.

ChatGPT и «Яндекс Нейро» оказались бесполезны ‒ в зависимости от хитрости запроса они отвечали последовательно: «да, это редкая песня Высоцкого» и «нет, такой песни в репертуаре Высоцкого нет».

Я рассудил, что песни, залитые до 2024 года, могут считаться доказательством подлинности голоса Высоцкого, поскольку раньше такого разгула генеративной музыки не наблюдалось. Все версии найденного мной трека, так или иначе, оказывались не старше года, но прямо это ничего не доказывало.

Древние «Ответы.Мейл» предложили вариант дискуссии пятнадцатилетней давности: «Стихи: Третьяков В. А. Музыка: Высоцкий В. С.». Стало понятнее?

Решил зайти «от противного»: у кавера (62 тысячи просмотров) закрыты комментарии, но есть ссылка на тг-канал автора, однако на канале нет ни самого трека, ни ссылки на ЛС автора…

Посмотрел дату рождения Виктора Анатольевича ‒ 1961 год. Предположим, он был вундеркиндом и по совместительству соседом великого музыканта. Скажем, лет в пятнадцать он мог предложить своему соседу стихи собственного сочинения, а тот, вдохновившись текстом молодого хтонического поэта, решил записать песню. Уже сомнительно, но кто знает?

Все разрешилось детальным изучением биографии. В 2001 году Виктор Третьяков написал альбом «Циник», в котором присутствует одноименная песня на музыку Высоцкого! То есть ценитель творчества взял одну из песен или даже совместил несколько (по версии следствия, за основу взята песня «Про переселение душ») и просто поверх минуса спел сам.

Между делом, нашел еще одну похожую запись (369 тысяч просмотров). Там на фоне невнятно снятых слайдов с фотографиями Высоцкого звучит эта же песня, только в неумело состаренном варианте. Как будто записывали на диктофон с колонок, а потом соединили видео- и аудиодорожки ‒ просто плоская и подпорченная.

Вот, что утверждает владелец канала:

То есть вводит в заблуждение. С особым цинизмом. Я бы даже сказал ‒ наглейшим образом врет! Своровал трек у прекрасного промпт-инженера, который умудрился дать вторую жизнь замечательным юмористическим стихам!

Поэтому всегда проверяйте подобные «редкие песни» ‒ очень может быть, что вам врут.

Ну и в довесок вот вам еще один прелестный кавер на Виктора Третьякова от электронного Владимира Высоцкого.

владимир-высоцкий-кузнечик-ai-cover-виктор-третьяков

AI-кавер на кавер-песню, созданную из музыки Высоцкого в стиле стихов Высоцкого талантливым поклонником творчества Высоцкого Третьяковым, чтобы сделать кавер-песню такой, чтобы из подражания творчества она как бы стала оригиналом. Ну вот, круг замкнулся, и очень приятно, что на Владимире Семеновиче.

Воистину, в удивительное время живем!

00:01, 3 октября

Владимир Никифоров

ChatGPT и Suno. Взгляд и опыт ленивого футуролога

Смартфон и телевизор с AI, умная колонка с GPT — искусственный интеллект стал маркером новизны и…

00:01, 17 февраля

Владимир Никифоров

Организация рабочего места, по-домашнему. Место рукодельницы

Многие люди разнообразят свою жизнь домашним рукоделием в самом широком смысле этого слова, а для некоторых это хобби является не только приятным времяпрепровождением, но и вполне серьезной надомной работой. Организовываем домашнее рабочее место для рукодельницы!

UdioAI и GigaChat. Фаворит и андердог?

ChatGPT и Suno. Взгляд и опыт ленивого футуролога

Обзор робота-пылесоса Roborock Qrevo Edge 2 Pro

Субботний кофе №386

Обзор робота-пылесоса Roborock Qrevo Edge 2 Pro

Тестируем смартфон HUAWEI Mate X7: как работает многозадачность

Почему вашему бизнесу нужен корпоративный мессенджер. Обзор Битрикс24

Обзор OSiO FocusLine: 5 причин выбрать моноблок вместо десктопа или ноутбука

Впечатления от HUAWEI Mate X7: складной смартфон для работы и жизни

Молодежный смартфон Huawei nova 15. Отличные селфи

ChatGPT и Suno. Взгляд и опыт ленивого футуролога

Организация рабочего места, по-домашнему. Место рукодельницы