Во-первых, стоит рассказать о том, что такое DALL-E mini. Это самый открытый (его код лежит в свободном доступе), бесплатный и популярный онлайн-сервис на базе ИИ, который переводит слова в изображение. Сам по себе DALL-E mini ничего придумать не в состоянии, ПО опирается на каталоги поисковых систем в режиме онлайн, именно оттуда «мини-Дали» черпает материал для своих художеств. Сервис разрабатывается программистом по имени Борис Дайма и с каждым днем становится все популярнее. Главной киллер-фичей ИИ-художника является поддержка сложных выражений. Например, если ввести «Cat eats borscht», то вы получите 9 сгенерированных изображений, на которых кот действительно кушает это славянское блюдо:
Но! Коты действительно едят вкусный борщ, и такие изображения есть в сети, а значит, у DALL-E Mini есть сырье для интерпретации. Как насчет «Кот не ест борщ» (The cat does not eat borscht)? Человек изобразил бы кота, отвергающего миску с борщом либо же бегущего от нее. ИИ не смог решить эту задачу, видимо, потому что она требует наличия творческой жилки:
Чтобы протестировать сервис на воображение, можно ввести что-нибудь такое, чего раньше не было. Введем «Пришелец летит на мухе» (The stranger flies on a fly) и убедимся в том, что воображение у ИИ отсутствует напрочь:
По мнению большинства исследователей, философов и прочих размышляющих людей, самосознание является неотъемлемой частью настоящего ИИ. Нет самосознания – нет личности, нет личности – нет разума, все просто. Кем же сам себя представляет DALL-E mini?
У этого «ИИ» нет самосознания, он никак себя не ассоциирует, показывая нам какую-то странную штуку, похожую на гибрид треноги для фотоаппарата, клюшки для гольфа и квадрокоптера. Но не все так просто с «мини-Дали», некоторые команды алгоритм понимает правильно. Вот что получается по запросу «Пикассо нарисовал Байдена» (Picasso painted Biden), а рядом «Жан-Антуан Ватто нарисовал Путина» (Jean-Antoine Watteau painted Putin). Кое-что DALL-E mini все-таки может:
У нас не политический ресурс, но мы обсуждаем скилл ИИ-художника, так что прочь сомнения. Стоит также отметить, что алгоритму DALL-E mini абсолютно плевать на политику, обоих лидеров он изобразил одинаково плохо. Увы, ИИ знает не всех знаменитых художников, а машинное обучение он проходил, видимо, не слишком долго и основательно. Из-за этого итоговые изображения не получаются «бесшовными», наблюдается одно целое, грубо склеенное из выдранных отовсюду кусков. Поэтому боже вас упаси вводить что-нибудь навроде «Rafael drew Zelensky».
Специально для юмористов и троллей Борис Дайма напоминает о том, что сервис в разработке, это не конечный результат. Посетителя сайта не заставят подписывать соглашение об ответственном поведении, но в доступе лежит разъяснение об этом:
Хотя возможности моделей генерации изображений впечатляют, они также могут усиливать или усугублять социальные предубеждения. Хотя степень и характер предвзятости мини-модели DALL·E еще предстоит полностью задокументировать, учитывая тот факт, что модель была обучена на нефильтрованных данных из интернета, она может генерировать изображения, содержащие стереотипы в отношении групп меньшинств. Работа по анализу характера и степени этих ограничений продолжается и будет более подробно описана в карточке модели DALL·E mini.
Тайна DALL-E mini
На моей памяти это первый ИИ, который написан так, что начинает обработку изображений вообще без всяких данных. Трудно судить, откуда взялись индианки, но вы обязательно получите одну, две или даже три в каждом пустом запросе. Почему индианки? Он одеты в сари, и иногда на их лбах видна красная точка (не знаю, как она называется). Удивительно, но факт.
Доминирование индианок в DALL-E mini не объяснить ничем. Ни количеством размещенных фотографий в соцсетях и на сайтах, ни алгоритмом. Откуда они взялись? Возможно, машинное обучение проводила группа индийцев, а вовсе не Борис Дайма? Или Борис Дайма сам любитель, так сказать, обучать ИИ на фотографиях из Индии? Но даже если и так, то это никак не объясняет результат. Что это за такой алгоритм, который сравнивает неизвестные изображения с забитыми в базу индийцами? Или… Или все еще проще, настоящий алгоритм был произведен группой индийских разработчиков, которые прячутся за именем Бориса? Мы не знаем этого точно, но индийский след заставляет задуматься. Если вам захочется поиграться, то просто перейдите по одной из ссылок (первая, вторая, более подходящая для смартфона) и начните мучить свою фантазию вместе с не полностью интеллектуальным ИИ. Без регистрации, ожидания и совершенно бесплатно. Уточню также, что от смартфона или ПК требуется только выход в интернет, ничего более.
Старший брат
Надо сразу сказать, что Борис Дайма не имеет никакого отношения к компании OpenAI, начавшей свой путь в 2015 году. OpenAI была основана группой инвесторов, вложивших в продвинутый инструмент DALL-E (и позже DALL-E 2) около 2 миллиардов долларов США, из которых половину средств выделил Илон Маск. В отличие от модели mini, которая написана на другом коде и принадлежит другому человеку, DALL-E 2 производит шедевры. Просто посмотрите на это!
Мне не удалось найти информацию о техническом оборудовании, которое обрабатывает продвинутый алгоритм, но это должно быть нечто похожее на огромную ферму крипты, с сотнями мощных видеокарт и серверов. На сервис выстроилась очередь, в которую можно попасть без регистрации, указав только свое имя и электронную почту. Очередь, похоже, длинная, за четыре дня ответа так и не пришло.
Но если все-таки удастся попасть пред очи ИИ, то я знаю, какую картину ему заказать, а вы?
Конкуренты
Конкурентов у этих двух сервисов особо-то и нет. Имеется ввиду, что доступ к услугам происходит в web-режиме, без установки каких-либо апплетов. Большинство подобных, например, ruDALL-E (от Сбербанка), явно не в состоянии тягаться с лидерами. На запрос «Пожилой худой седовласый мужчина упал с велосипеда и ругается» я получил вот это:
Заключение и размышления
В 2022 году технология ИИ достигла такого распространения, что даже отдельные энтузиасты могут создавать модные сервисы. Да, DALL-E mini не блещет достижениями, по сути, всего лишь упрощая и ускоряя то, что можно сделать руками и обычным софтом за полчаса, но он подойдет людям, которые совсем не знакомы с этим самым сторонним софтом. Пусть будет. В случае DALL-E 2 меня начинают терзать смутные сомнения. Так всегда бывает, когда звучит имя Илона Маска, невольно ожидаешь подвоха. Как в случае с китайскими б/у аккумуляторами в бесперебойном питании для всего дома. Просто представьте себе, что у вас есть два миллиарда долларов, вы американец, которого поддерживает правительство на самом высоком уровне, и вы умеете «делать картинку». Я ничего не утверждаю, скажу лишь, что гораздо дешевле построить в джунглях просторную тростниковую хижину, посадить в нее сто профессиональных художников, умеющих держать язык за зубами, и можно рисовать картину успеха. Это, конечно, шутка. Другая линия размышления привела к тому, что изобразительное искусство в виде комиксов, шаржей, карикатур и т.д., похоже, очень скоро не потребует человеческого участия. Как тут не вскрикнуть: «Бей роботов!». Друзья, а что вы думаете обо всем этом? Нужно нам оно? И почему так много индианок?
По запросу "красивая девушка".
Ну, в целом, нормуль
ИИ ещё далеко до человеческого мозга.
Обозвать пакет фреймворков искусственными интеллектом и гнать хайп волну. Вспоминается старый американский фильм "Тупее ещё тупее"
Интеллект отличает культурный контекст от фразы которую надо понимать буквально. Это по понимает все буквально.
Ввел — дети хоронят коня — по русски, перевод на английский. По английски буквальный разбор можно считать удовлетворительным. По русски полный провал… Даже буквально.
Возникает ощущение что эти проекты названы в честь Salvador Dalí. Уж слишком много общего в полотнах.
Нужно ли оно нам? Несомненно. Если не каждый проект сам по себе, то как этап развития концепции. Или кто-то думает что современные НЕинтеллектуальные программные пакеты появились минуя стадию Hello world?
мимoпроходил, В каком контексте обучено, в том и будет понимать. На самом деле проблема глубже. Модели обучают на одну, довольно узкую задачу. Можно научить находить машины, находить людей, понимать пространственные отношения слева-над-в-перед, различать цвета и пол, но это никак не поможет найти "девушку в красной машине" и "красную машину справа от синей".
"ИИ нарисовать не может нормально по запросу"…
ХА!!! Я запрос-то сформулировать нормально не могу! )))
Пасует фантазия )
Lecron, Между научить находить и научить думать как выясняется огромная пропасть.
Чушь. Особенно будто бы нейронка якобы что-то там сшивает и не имеет фантазию. А приведение размышлений философов, которые ничерта не знают про нейробиологию и архитектуру мозгов животных, в том числе и человека, просто смехотворны. Статья полного профана.
119270, Называть нейронку "просто пакетом фреймворков" так же глупо, как в начале 20-го века говорить, что компьютеры не будут нужны.)