По материалам The Verge

Уходящий год ознаменовался настоящим расцветом программ, основанных на искусственном интеллекте, который создает произведения изобразительного искусства, музыку или пишет код, учась на чужих работах. Но по мере того, как роль этих инструментов растет, становится понятно: оставшиеся без ответа юридические вопросы могут определить будущее отрасли.

У генеративного искусственного интеллекта был очень плодотворный год. Такие корпорации, как Microsoft, Adobe и GitHub, интегрируют эту технологию в свои продукты, а стартапы собирают сотни миллионов, чтобы конкурировать с ними. А еще программы обретают культурное влияние, поскольку модели искусственного интеллекта, преобразующие текст в изображение, порождают бесчисленное количество мемов. Однако в любом обсуждении генеративного ИИ фоном звучит вопрос, которым задаются как его сторонники, так и критики: законно ли все это?

Этот вопрос порождают сами принципы, по которым обучаются генеративные системы ИИ. Как и большинство программ для машинного обучения, они работают путем выявления и воспроизведения закономерностей в данных. Но поскольку эти программы используются для генерации кода, текста, музыки и рисунков, эти данные сами создаются людьми, извлекаются из Интернета и тем или иным образом защищены авторскими правами.

Для исследователей ИИ в далеком туманном прошлом (оно же 2010-е годы) это не составляло большой проблемы. Тогдашний ИИ был способен генерировать только размытые черно-белые изображения лиц размером с ноготь. Это не представляло очевидной угрозы для людей. Но в 2022 году, когда умелец-одиночка может использовать программу вроде Stable Diffusion, чтобы скопировать стиль художника за считанные часы, или когда компании продают принты, созданные искусственным интеллектом, и фильтры для социальных сетей, представляющие собой явные подделки под современных дизайнеров, вопросы законности и этики встают гораздо более остро.

Возьмем случай с Холли Менгерт, иллюстратором Disney, которая обнаружила, что ее стиль был скопирован студентом из Канады в ходе эксперимента с искусственным интеллектом. Студент загрузил 32 произведения Менгерт и потратил несколько часов на тренировку модели машинного обучения, которая могла бы воспроизвести ее стиль. Как сказала Менгерт техноблогеру Энди Байо, сообщившему об этом случае: «Лично я воспринимаю это так, что кто-то берет работу, которую я сделала, знаете, вещи, которым я научилась — а я работаю художником с тех пор, как закончила художественную школу в 2011 году — и использует ее для создания произведений искусства, на которые я не давала согласия и не давала разрешения».

Честно ли это? И может ли Менгерт что-то с этим сделать?

Чтобы ответить на эти вопросы и рассмотреть правовую среду, связанную с генеративным ИИ, журналисты The Verge пообщались с рядом экспертов, включая юристов, аналитиков и сотрудников стартапов в области ИИ. Некоторые с уверенностью говорили, что эти системы, безусловно, способны нарушать авторские права и могут столкнуться с серьезными юридическими проблемами в ближайшем будущем. Другие столь же уверенно предположили, что верно как раз обратное: все, что сейчас происходит в области генеративного ИИ, является юридически открытым и любые судебные процессы обречены на провал.

«Я вижу людей по обе стороны, чрезвычайно уверенных в своих позициях, но что будет в реальности, никто не знает, — отвечает The Verge Байо, который внимательно следит за развитием генеративного искусственного интеллекта. — И любой, кто говорит, что точно знает, чем это обернется в суде, ошибается».

Андрес Гуадамуз, академик, специализирующийся на ИИ и праве интеллектуальной собственности в британском Сассекском университете, предположил, что, несмотря на большое количество неизвестных, есть всего несколько ключевых вопросов, из которых вытекает вся связанная с этой темой неопределенность. Во-первых, можете ли вы защитить авторские права на результаты работы генеративной модели ИИ, и если да, то кому они принадлежат? Во-вторых, если вы владеете авторскими правами на входные данные, используемые для обучения ИИ, дает ли это вам какие-либо юридические права на модель или контент, который она создает? Как только на эти вопросы будут получены ответы, возникнет еще более важный вопрос: что делать с последствиями использования этой технологии? Какие юридические ограничения могут или должны быть введены в отношении сбора данных? И могут ли люди, создающие эти системы, и те, чьи данные нужны для их создания, жить в мире?

Давайте рассмотрим эти вопросы по порядку.

Вопрос вывода: можно ли регистрировать авторские права на то, что создает модель ИИ?

Ответ на этот вопрос не так уж сложен. В США нет практики регистрации авторских прав на произведения, созданные исключительно машиной. Однако, видимо, на авторские права можно претендовать в тех случаях, когда создатель способен доказать степень человеческого участия.

В сентябре Бюро регистрации авторских прав США одобрило первую в своем роде регистрацию комикса, созданного с помощью искусственного интеллекта Midjourney, преобразующего текст в изображение. Комикс представляет собой законченное произведение: это 18-страничное повествование с персонажами, диалогами и традиционным для комиксов композиционным построением. И хотя впоследствии сообщалось, что Бюро пересматривает свое решение, регистрация авторских прав на комикс еще не отменена. Похоже, что одним из факторов пересмотра будет степень участия человека в создании комикса. Кристина Каштанова, художница, создавшая комикс, рассказала IPWatchdog, что Бюро попросило ее «предоставить подробности моей работы, чтобы показать, что в процессе создания этого графического романа имело место значительное участие человека». (Сама организация не комментирует конкретные случаи.)

По словам Гуадамуса, это станет постоянной проблемой, когда потребуется получение авторских прав на произведения, созданные с помощью ИИ. «Если вы просто наберете “кошка Ван Гога”, не думаю, что этого будет достаточно, чтобы получить авторские права в США, — говорит он. — Но если вы начнете экспериментировать с запросами и создадите несколько изображений, начнете обрабатывать свои изображения, будете использовать разные источники и проектировать больше, то, на мой взгляд, безусловно, вы сможете претендовать на авторские права».

В свете вышесказанного вполне вероятно, что подавляющее большинство работ, созданных генеративными моделями ИИ, не может быть защищено авторским правом. Как правило, это массовый продукт, и в качестве запроса используется всего несколько ключевых слов. Но более сложные процессы могут помочь достичь лучшего результата. Среди результатов могут быть и спорные произведения, такие как нашумевшая работа искусственного интеллекта, выигравшая местный художественный конкурс. Создатель работы сказал, что потратил недели на оттачивание своих запросов и ручное редактирование готовой работы, что предполагает относительно высокую степень интеллектуального участия человека.

Джорджио Франчеселли, ученый-компьютерщик, который пишет о проблемах, связанных с авторскими правами в области ИИ, говорит, что измерение человеческого вклада будет «особенно верным» для процессов в ЕС. А в Великобритании — другой крупной юрисдикции, вызывающей озабоченность у западных стартапов в области искусственного интеллекта, — законы отличаются. Великобритания является одной из немногих стран, защищающих авторские права на произведения, созданные исключительно с помощью компьютера, но при этом автором считается «лицо, которым принимаются меры, необходимые для создания произведения». Опять же, остается пространство для появления разночтений (будет ли этот «человек» разработчиком модели или ее оператором?), но это создает прецедент для защиты авторских прав.

Однако в конечном счете регистрация авторских прав — это только первый шаг, как предупреждает Гуадамуз. «Бюро авторских прав США — это не суд, — говорит он. — Вам нужна регистрация, если вы собираетесь подать на кого-то в суд за нарушение авторских прав, но решать, имеет ли это юридическую силу, будет суд».

Вопрос ввода: можете ли вы использовать защищенные авторским правом данные для обучения нейросети?

Для большинства экспертов ключевой вопрос в области ИИ и копирайта заключается в том, какие данные используются для обучения нейросети. Большая часть систем обучается на громаднейших объемах контента, взятого из сети, будь то текст, код или изображения. К примеру, база данных для обучения нейросети Stable Diffusion, одной из крупнейших и оказавших наибольшее влияние систем перевода голосового запроса в изображение, содержит миллиарды изображений, взятых с сотен различных доменов. В дело пошло все — от личных блогов на WordPress или Blogspot до специальных платформ для искусства вроде DeviantArt и хранилищ стоковых фотографий вроде Shutterstock и Getty Images. Реальность такова, что если вы выкладывали свое творчество в сети, то, скорее всего, оно уже попало в базу данных для обучения одного из ИИ. Уже даже есть сервисы, которые предлагают проверить, кем именно используется ваше творчество.

При этом у всех работающих с ИИ исследователей, стартапов и богатых корпораций есть лазейка в законодательстве (опять же, это справедливо для США), которая была создана для сохранения свободы выражения при использовании защищенного авторским правом продукта. 

Вопрос того, что при этом считается «добросовестным использованием», поясняет профессор юридического факультета Университета Вандербильта Дэниел Жерве. Он специализируется на законодательстве в области интеллектуальной собственности и много пишет о том, как оно пересекается с ИИ. «Вообще, есть много факторов, которые принимаются в расчет при формировании понимания “добросовестного использования” в области права на интеллектуальную собственность, из которых два обладают наибольшей значимостью. Это какова была цель или природа использования и каково было влияние на рынок. Другими словами: было ли использование связано с изменением предмета некоторым образом (“преобразующее” использование) и оказывает ли такое использование влияние на доход оригинального создателя, конкурируя с его работами».

Учитывая значимость этих факторов, профессор Жерве говорит, что ответ на вопрос, считается ли использование контента для обучения ИИ добросовестным использованием, — «скорее да, чем нет». Но это нельзя с такой же уверенностью утверждать применительно к создаваемому нейросетями контенту. Другими словами, вы можете сколько угодно обучать свою нейросеть, используя данные, созданные другими людьми, но то, что вы создаете с помощью ИИ, может нарушать права собственности. Разница примерно такая же, как между печатью поддельных денежных купюр для фильма и попыткой расплатиться ими в магазине. 

Сравните пару сценариев использования одной и той же модели ИИ по преобразованию текста в изображение. Если нейросеть обучалась на многих миллионах изображений и используется для создания графического романа, то крайне маловероятно, что он вызовет какие-то споры о нарушении права собственности. Использованные для обучения данные были преобразованы в процессе, а полученный результат не оказывает влияния на рынок для исходного произведения. Но если вы будете оттачивать модель на 100 картинах конкретного художника с целью получения изображений, имитирующих его стиль, то у расстроенного автора будут весьма сильные аргументы в суде против вас.

«Если вы дадите искусственному интеллекту 10 романов Стивена Кинга и скажете: “Сделай роман Стивена Кинга”, — то вы напрямую будете конкурировать со Стивеном Кингом. Будет ли это добросовестным использованием? Наверное, нет», — говорит Жерве.

Важно, что между этими двумя полюсами добросовестного и недобросовестного использования находится бесконечно количество сценариев, в которых исходные данные, цель и результат смешаны в разных пропорциях и могут склонить чашу весов в суде к любому из результатов. 

Председатель совета директоров компании Wombo, разрабатывающей генеративные ИИ, Райан Хурана, говорит, что большинство компаний, продающих такие сервисы, вполне в курсе таких различий. «Преднамеренное использование образцов, основанных на работах, защищенных авторским правом […] нарушает правила использования сервиса, прописанные у любого крупного игрока, — отвечает он журналистам The Verge. Но также добавил, что проверить соблюдение требований затруднительно, а сами компании в большей степени интересуются вопросом предотвращения нарушения копирайта при использовании нейросетей, нежели вопросом ограничения использования данных для обучения ИИ. Это особенно верно для моделей преобразования текста в изображение с открытым исходным кодом, таких как Stable Diffusion, которые можно обучать и использовать без какого-либо надзора или фильтров. Компания, возможно, и прикрыла свои тылы, но это может способствовать нарушению авторских прав.

Другая важная составляющая для определения добросовестного использования — это были ли данные для обучения и сама нейросеть использованы с целью академических исследований, а не с целью получения прибыли. Этот критерий хорошо подкрепляет доказательства добросовестного использования, и в компаниях об этом знают. К примеру, компания Stability AI, отвечающая за распространение Stable Diffusion, не собирает напрямую данные для обучения нейросети и не занимается ее обучением. Вместо этого она отвечает за финансирование и координацию работы ученых, а сама модель Stable Diffusion принадлежит, согласно лицензии, одному из немецких университетов. Это позволяет Stability AI использовать нейросеть как коммерческий сервис (DreamStudio), но при этом дистанцироваться от всего, что с ее помощью создается.

Такую практику в The Verge назвали “отмыванием ИИ данных.” Такие методы стали использовать с момента изобретения программ ИИ по распознаванию лиц. В качестве примера можно привести историю с MegaFace, данные для которой собирали исследователи из Университета Вашингтона, просто забирая фотографии с сервиса Flickr. Академические исследователи брали данные, отмывали их, а затем их с чистой совестью использовали коммерческие компании. Когда-то это были исследования, но теперь данные, включая миллионы личных фотографий, оказались в руках компании по распознаванию лиц Clearview AI, государственных силовых ведомств и китайского правительства. Такой готовый и проверенный способ отмывания данных уже служит для защиты разработчиков генеративных ИИ от законных претензий.

А теперь добавим еще один сюжетный поворот в этом деле. Профессор Жерве указывает на то, что нынешнее определение «добросовестного использования» может измениться уже в ближайшие месяцы, поскольку Верховный суд США рассматривает дело, в котором упоминаются Энди Уорхол и Принс. Суд рассматривает вопрос, была ли добросовестным использованием работа Энди Уорхола с использованием фотографий Принса. Или это нарушение авторского права?

«Верховный суд редко рассматривает дела о добросовестном использовании, но если они до него доходят, то обычно это нечто значимое. Я думаю, что это как раз такой случай, — говорит профессор Жерве. — Так что сказать что-то определенное, пока Верховный суд не вынес свой вердикт, будет слишком самонадеянным».

Как художники и компании-разработчики ИИ могут найти компромисс?

Даже если считать, что обучение генеративных моделей ИИ подпадает под определение добросовестного использования, это все равно не решает проблемы отрасли. Это никоим образом не успокаивает художников, недовольных тем, что их работы используются коммерческими нейросетями, а также никак не покрывает другие генеративные модели, которые работают с кодом или музыкой. Памятуя об этом, давайте подумаем над тем, какие средства правовой защиты, технические либо иные, могут быть применены для того, чтобы генеративные ИИ могли процветать, но при этом учитывать интересы создателей контента или компенсировать их убытки? Ведь без этого все направление просто не сможет существовать.

Наиболее очевидным выглядит предложение создать систему лицензирования данных и просто выплачивать какие-то средства их создателям. Но если подумать, то это просто убьет индустрию. Брайан Кейси и Марк Лемли, авторы статьи “Fair Learning,” которая легла в основу аргументации в пользу добросовестного использования генеративного ИИ, утверждают, что наборы данных, необходимых для обучения нейросети, настолько велики, что нет возможности лицензировать все входящие в них фотографии, видео- и аудиозаписи или тексты для нового использования. Они утверждают, что любое удовлетворение требований на авторские права приведет не к получению авторами вознаграждения, а полному запрету на использование. Разрешение на «добросовестное обучение», как они это называют, не только поощряет инновации, но также позволит разработать более совершенные модели ИИ.

С другой стороны, утверждается, что мы уже сталкивались с кризисом авторских прав сходного масштаба и нашли успешное решение проблемы. Целый ряд экспертов, к которым обращались из редакции The Verge, напомнили об эре музыкального пиратства, когда программы по распространению файлов основывались на многочисленных нарушениях авторского права, но процветали исключительно до того момента, как в результате серии судов были выработаны новые соглашения, которые позволяли сохранить авторские права. 

«В начале 2000-х у вас был всеми любимый, но совершенно незаконный Napster. А сегодня у вас есть сервисы вроде Spotify и iTunes», — заявляет адвокат Мэттью Баттерик, занимающийся делами против компаний, собиравших данные для обучения нейросетей. Некоторое время назад в The Verge публиковали интервью с ним. «И как эта система появилась? Благодаря тому, что компании смогли заключить лицензионные соглашения и перенести весь контент в легальное поле. Да, всем держателям акций пришлось поучаствовать в процессе, чтобы он заработал, но никакой катастрофы не случится, если подобный процесс повторят и с нейросетями».

Райан Хурана из Wombo предполагает аналогичный исход: «В музыкальной индустрии действуют куда более сложные правила копирайта, поскольку имеются различные типы лицензирования, многообразие правообладателей и множество промежуточных инстанций. Учитывая нюансы [проблем легализации данных для ИИ], я полагаю, что вся отрасль генеративных ИИ будет эволюционировать в направлении лицензирования по образцу музыкальной индустрии».

Есть и другие варианты, которые могут сработать. Например, Shutterstock, планирует создать фонд, из которого будут выплачиваться компенсации людям, чьи работы были проданы компаниям по разработке ИИ для обучения нейросетей, а DeviantArt создал специальный тег метаданных для изображений, авторы которых предупреждают разработчиков о нежелательности использования этих изображений. На самом DeviantArt система не работает, но небольшая соцсеть Cohost уже внедрила этот тег и заявляет, то если данные будут использованы невзирая на него, то суд выиграть не получится. Впрочем, художественное сообщество восприняло все эти инициативы со смешанными чувствами. Может ли единоразовая выплата за лицензию компенсировать потерю источника дохода? Чем поможет тег, запрещающий сбор данных, тем, чьи работы уже попали в подборки для обучения коммерческих нейросетей?

Многим авторам ущерб уже нанесен, но представители разработчиков ИИ хотя бы предлагают какие-то решения на будущее. Один из самых простых способов для разработчиков нейросетей — это создать базы данных, в которых не будут нарушаться авторские права — потому, что произведение было должным образом лицензировано, или потому, что данные были созданы исключительно для обучения ИИ. Один такой проект под названием The Stack уже существует. В базе данных — только код с самой широкой из возможных открытых лицензий, а также есть инструмент по максимально быстрому и простому изъятию данных по запросу. Разработчики утверждают, что такая модель подошла бы всей отрасли. 

«Подход The Stack без проблем может быть использован другими медиа, — заявляет Ясин Джернит, глава Machine Learning & Society в Hugging Face, который помогал создавать The Stack совместно с ServiceNow. — Это важный первый шаг в освоении механизмов, служащих для достижения согласия сторон, механизмов, которые работают лучше всего, когда все соблюдают правила платформы, с которой были взяты данные для обучения ИИ». Джернит утверждает, что Hugging Face хочет помочь добиться фундаментального сдвига в отношении разработчиков ИИ к создателям контента. Однако на данный момент это крайне редкий случай.

Что будет дальше?

Какой бы части комплекса вопросов по легализации работы генеративных ИИ мы ни коснулись, видно, что все участники процесса готовы к изменению ситуации. Компании, извлекающие миллионы из этой технологии, окапываются на своих позициях, повторяя, что вся их деятельность полностью легальна, хотя на самом деле надеются лишь на то, что никто не станет оспаривать это утверждение. По другую сторону нейтральной полосы обладатели авторских прав озвучивают свою чувствительную позицию по вопросу, но вовсе не рвутся к совершению каких-то реальных действий. Getty Images недавно внесла запрет на размещение созданного ИИ контента, поскольку он представляет определенный потенциальный риск для покупателей. СЕО компании Крейг Питерс в прошлом месяце прямо заявил: «Я думаю, что это было бы безответственно. Я думаю, он может быть нелегальным». В то же время RIAA, ассоциация звукозаписывающих компаний из США, объявила, что миксы, созданные ИИ, и извлечение данных нарушают права ее членов, хотя пока и не инициировала ни одного судебного процесса. 

И первый выстрел войны за копирайты для ИИ уже прозвучал. На прошлой неделе был инициирован судебный иск против Microsoft, GitHub и OpenAI. В иске заявляется, что все три компании сознательно воспроизводили открытый исходный код с помощью ИИ-помощника по кодированию Copilot, но без надлежащих лицензий. В разговоре с представителями The Verge юристы, занимающиеся этим делом, заявили, что он может создать прецедент для всей области генеративного ИИ (хотя другие эксперты оспаривают это утверждение, говоря, что любые проблемы с авторскими правами, связанные с кодом, скорее всего, будут отделены от проблем, связанных с таким контентом, как искусство и музыка).

А вот Гуадамуз и Байо в один голос заявляют, что они удивлены, что до сих пор нет массовых исков. «Если честно, то я поражен, — говорит Гуадамуз. – Но, думаю, это все оттого, что в отрасли все боятся быть первыми и проиграть. Как только кто-то проломит лед, я думаю, что иски начнут подавать направо и налево».

Байо предполагает еще одну сложность. Многие, кого задевает эта технология, художники и прочие, попросту находятся в неудачном положении для подачи иска. «У них нет возможности. Такие судебные иски очень дороги и пожирают массу времени, так что подавать их вы станете, только будучи уверенными в своей победе. По этой причине некоторое время я полагал, что первые иски подадут сайты со стоковыми изображениями. Кажется, что именно они больше всего теряют от развития данной технологии, они легко могут доказать, что значительная часть их баз была использована для обучения генеративных моделей, и у них есть деньги на финансирование такого процесса».

Гуадамуз соглашается: «Все знают, насколько дорого это будет стоить. Кто бы ни подавал иск, вначале решение вынесет суд низкой инстанции, проигравший подаст апелляцию, потом будет апелляция на апелляцию, и так далее, пока они не доберутся до Верховного суда».