Нейросети прикончат Интернет?

По материалам The Verge

В последние месяцы неблагие знамения накапливаются с угрожающей скоростью. Google пытается убить 10 синих ссылок. Твиттер* брошен на произвол ботов и синих галочек. Amazon захламлен и TikTok* загажен. Увольнения истощают жизненные силы интернет-СМИ. В объявлении о вакансии «редактора ИИ» требуют выхлопа «от 200 до 250 статей в неделю». ChatGPT используется для создания целых спам-сайтов. Etsy наводнен мусором, созданным искусственным интеллектом. Чат-боты цитируют друг друга, создавая дезинформационного уробороса, который кусает собственный хвост. LinkedIn* использует искусственный интеллект, чтобы расшевелить уставших пользователей. Snapchat и Instagram* надеются, что боты будут разговаривать с вами, когда вашим друзьям не до того. Пользователи Reddit устраивают блэкауты. Модераторы Stack Overflow бастуют. ИИ потрошит «Википедию». Старый Интернет умирает, а новый изо всех сил пытается родиться.

Конечно, Интернет умирает постоянно. Он умирал в течение многих лет – то приложения стали воровать трафик у веб-сайтов, то алгоритмы стали поощрять быстрое переключение внимания. Но в 2023 году он умирает снова — и, как следует из вышеизложенного, в игру вступает новый фактор. Это искусственный интеллект.

Если говорить в самых общих чертах, проблема вот в чем. Много лет назад Интернет был местом, где люди что-то делали. Они создавали домашние страницы, форумы и рассылки, а заодно зарабатывали небольшие деньги. Затем компании решили, что они могут сделать это лучше. Они создали удобные и многофункциональные платформы и открыли свои двери для всех желающих. Они будто поставили перед нами коробки, и мы заполнили эти коробки текстом и изображениями, и люди приходят посмотреть на содержимое этих коробок. Компании гнались за масштабом, потому что когда где-то собирается много людей, обычно есть и способ заработать на них деньги. Но ИИ меняет эти предпосылки.

Учитывая деньги и вычислительные ресурсы, системы искусственного интеллекта — особенно модные сейчас генеративные модели — легко масштабируются. Они в изобилии производят текст и изображения, а вскоре это коснется музыки и видео. Их продукция потенциально может превзойти платформы, на которых мы привыкли искать новости, информацию и развлечения. Но качество этих систем часто не выдерживает критики, и они построены таким образом, что пока могут только паразитировать на сети. Эти модели обучаются на массивах данных, заложенных во время последней эпохи Интернета, они создают их заново и делают это неидеально. Компании извлекают информацию из открытого Интернета и превращают ее в машинный контент, который дешев в создании, но менее надежен. Затем этот продукт конкурирует за внимание с платформами и людьми, которые были до него. Сайтам и пользователям приходится считаться с этими изменениями и пытаться понять, как к этому адаптироваться и можно ли вообще это сделать.

Google переформатировала поиск, поместив результат, сгенерированный ИИ, выше источников

В последние месяцы обсуждения и эксперименты на некоторых из самых популярных и полезных сайтов в Интернете — на таких, как Reddit, «Википедия», Stack Overflow и сам Google — выявили напряжение, вызванное появлением систем искусственного интеллекта.

Модераторы Reddit устраивают блэкауты после заявления компании о том, что она резко повысит плату за доступ к своему API. А руководители компании заявляют, что эти изменения (частично) являются ответом на то, что компании, занимающиеся ИИ, практикуют скрейпинг данных. «Массив данных Reddit действительно ценен, — сказал основатель и генеральный директор Reddit Стив Хаффман в интервью The New York Times. — Но нам не стоит отдавать все эти ценности ряду крупнейших компаний мира бесплатно». Правда, это не единственная причина — Reddit пытается выжать больше доходов из платформы перед запланированным IPO в конце этого года. Но это показывает, насколько такое использование данных является одновременно угрозой и возможностью для нынешней сети, что заставляет компании переосмыслить открытость своих платформ.

Например, с использованием своих данных не понаслышке знакома «Википедия». Ее информация уже давно используется Google для формирования «блоков знаний», и в последние годы поисковый гигант начал платить за эту информацию. Но модераторы «Википедии» обсуждают, как использовать новые языковые модели ИИ для написания статей для самого сайта. Они хорошо осведомлены о проблемах, связанных с этими системами, которые фабрикуют факты и источники с быстротой, вводящей в заблуждение. Но в то же время им известно, что эти системы дают явные преимущества с точки зрения скорости и масштаба. «Риск для “Википедии” заключается в том, что люди могут снизить качество, добавляя материалы, которые они не проверяли, — говорит Эми Брукман, специалист по онлайн-сообществам и автор книги “Стоит ли верить Википедии?” — Я не думаю, что есть что-то плохое в том, чтобы использовать их в качестве заготовки, но каждый пункт должен быть проверен».

Stack Overflow — аналогичный, но, возможно, даже более экстремальный случай. Как и в Reddit, его модераторы тоже бастуют, и, как и редакторы «Википедии», они беспокоятся о качестве генерируемого ИИ контента. Когда ChatGPT был запущен в прошлом году, Stack Overflow была первой крупной платформой, запретившей результаты его работы. Модераторы писали: «Основная проблема заключается в том, что, хотя ответы, которые выдает ChatGPT, содержат высокий процент неправильных, они обычно выглядят так, как будто они могут быть правильными и их очень легко дать». Сортировка результатов занимает слишком много времени, поэтому модераторы решились на полный запрет.

Однако у руководства сайта были другие планы. С тех пор компания, по сути, отменила запрет, увеличив количество доказательств, необходимых для того, чтобы пользователи могли публиковать контент, созданный ИИ, и объявила, что, напротив, хочет воспользоваться этой технологией. Как и Reddit, Stack Overflow планирует взимать плату с фирм, которые берут ее данные при создании собственных инструментов искусственного интеллекта, — предположительно, чтобы конкурировать с ними. Борьба с модераторами идет в плоскости соблюдения стандартов сайта и того, кто должен их обеспечивать. Модераторы утверждают, что результатам работы ИИ нельзя доверять, но руководители говорят, что риск того стоит.

Однако все эти трудности меркнут по сравнению с изменениями, происходящими в Google. Поиск Google поддерживает экономику современного Интернета, распределяя внимание, а значит, и доход в большей части сети. Google подтолкнула к действию популярность Bing и ChatGPT в качестве альтернативных поисковых систем, и поисковый гигант экспериментирует с заменой своих традиционных 10 синих ссылок сводками, созданными ИИ. Но если у компании все пойдет по плану, то изменения будут лавинообразными.

В статье Аврама Пилча, главного редактора технического сайта Tom’s Hardware, посвященной бета-версии поисковой системы Google с искусственным интеллектом, освещается ряд проблем, в частности, Пилтч говорит, что новая система Google — это, по сути, «двигатель плагиата». Его сводки, сгенерированные ИИ, часто дословно копируют текст с веб-сайтов, но размещают этот контент над исходными ссылками, лишая их трафика. Это изменение, которое Google продвигала в течение долгого времени, но посмотрите на скриншоты в статье Пилча, и вы увидите, как сильно сместился баланс в пользу контента, извлеченного ИИ. Если эта новая модель поиска станет нормой, она может повредить всей сети, пишет Пилч. Сайты с ограниченным доходом, вероятно, будут вытеснены из бизнеса, а у самой Google закончится контент, созданный людьми, который ИИ мог бы перетасовывать.

Именно в этом суть развития ИИ — создание дешевого контента на основе чужой работы. И если Google продолжит использовать свой текущий вариант поиска на основе ИИ, последствия будет трудно предсказать. Потенциально это нанесет урон целым сегментам сети, которые большинство из нас считает полезными — от обзоров продуктов до блогов с рецептами, страниц про хобби, новостных агрегаторов и всевозможных вики. Сайты могли бы защитить себя, блокируя вход и взимая плату за доступ, но это также будет означать огромную перестройку экономики сети. В конце концов, Google может убить экосистему, породившую ее собственную ценность, или изменить ее настолько безвозвратно, что существование компании окажется под угрозой.

Но что произойдет, если мы позволим ИИ встать за штурвал и начать скармливать информацию массам? Что изменится?

Увы, имеющиеся на сегодняшний день данные свидетельствуют о том, что это ухудшит качество сети в целом. Как отмечает Пилтч в своем обзоре, несмотря на всю хваленую способность ИИ рекомбинировать текст, именно люди в конечном итоге создают исходные данные — будь то журналисты, которые совершают звонки и проверяют факты, или пользователи Reddit, у которых случилась конкретная проблема с батареей в конкретном устройстве и которые рады рассказать вам, как они ее решили. Напротив, информация, создаваемая языковыми моделями ИИ и чат-ботами, часто неверна. Хитрость заключается в том, что когда что-то не так, это «не так» трудно обнаружить.

Вот пример — агенты ИИ, системы, использующие языковые модели, такие как ChatGPT, которые подключаются к веб-сервисам и действуют от имени пользователя, заказывая продукты или бронируя авиабилеты. В одной из многочисленных вирусных тем в «Твиттере»*, превозносящих потенциал этой технологии, автор представляет сценарий, в котором компания-производитель водонепроницаемой обуви хочет заказать исследование рынка и обращается к AutoGPT (системе, построенной на основе языковых моделей OpenAI) для создания отчета о потенциальных конкурентах. Полученное описание является простым и предсказуемым. В нем перечислены пять компаний, в том числе Columbia, Salomon и Merrell, а также пункты, которые предположительно описывают плюсы и минусы их продуктов. «Columbia — известный и уважаемый бренд снаряжения и обуви для активного отдыха», — говорят нам. «Их водонепроницаемая обувь бывает разных стилей», а «их цены конкурентоспособны на рынке». Вы можете посмотреть на это и подумать, что это настолько банально, что, в принципе, бесполезно (и будете правы), но кроме того, информация малость неверна.

Модератор сабреддита r/hiking по имени Крис, которого автор оригинальной статьи привлек в качестве эксперта, сказал, что результат работы ИИ был по существу пустышкой. «Куча слов, но реальной ценности в том, что написано, нет». Не упоминаются такие важные факторы, как разница между мужской и женской обувью или типы используемой ткани. ИИ искажает факты и оценивает бренды с большим присутствием в Интернете как более достойные. В целом, как говорит Крис, никакой экспертизы в полученной информации нет — только догадки. «Если бы мне задали тот же вопрос, я бы дал совершенно другой ответ, — заявил он. — Следование советам ИИ, скорее всего, приведет к тому, что на тропе пострадают ноги».

Точно на то же жалуются модераторы Stack Overflow: дезинформация, генерируемая ИИ, коварна, потому что часто невидима. Она выдается моментально, но не основана на реальном опыте, поэтому для ее оценки требуются время и личный опыт. Если машинный контент заменит человеческое авторство, будет сложно — даже невозможно — полностью оценить ущерб. И да, люди также являются многочисленными источниками дезинформации, но если системы искусственного интеллекта задушат платформы, на которых в настоящее время правит бал человеческий опыт, у нас будет меньше возможностей исправить наши коллективные ошибки.

Все больше сайтов захламляются дешевым и мусорным контентом авторства ИИ

Эффекты, которые производит ИИ в Интернете, непросто обобщить. Даже в нескольких приведенных выше примерах задействовано множество различных механизмов. В некоторых случаях кажется, что предполагаемая угроза ИИ используется для оправдания изменений, желательных по другим причинам (как в случае с Reddit), в то время как в других случаях ИИ является оружием в борьбе между теми, кто создает ценность сайта, и теми, кто им рулит (Stack Overflow). Есть и другие области, в которых способность ИИ заполнять упомянутые в начале текста «коробки» оказывает разное влияние — от социальных сетей, экспериментирующих с привлечением ИИ, до торговых площадок, где мусор, созданный ИИ, конкурирует с другими товарами.

В каждом случае есть что-то в способности ИИ масштабироваться — в простом факте его грубого распространения и доминирования — что меняет платформу. Многие из самых успешных веб-сайтов — это те, которые используют масштаб в своих интересах либо за счет умножения социальных связей или выбора продуктов, либо за счет сортировки огромного конгломерата информации, из которой состоит сам Интернет. Но этот масштаб зависит от массы людей, которые создают базовую ценность, а люди не могут превзойти ИИ, когда дело доходит до массового производства (несмотря на то, что за кулисами много человеческого труда тратится на создание ИИ.) Есть известное эссе на тему машинного обучения «Горький урок», в котором отмечается, что десятилетия исследований доказывают: лучший способ улучшить системы искусственного интеллекта – это не применять инженерные таланты, а попросту использовать больше вычислительной мощности и данных для конкретной задачи. Урок горький, потому что он показывает, что масштаб машин превосходит возможности человеческого надзора. То же самое можно сказать и о сети.

Но является ли это чем-то плохим? Изменится ли сеть, какой мы ее знаем, перед лицом искусственного изобилия? Некоторые скажут, что так устроен мир, отметив, что сама сеть убила то, что было до нее, и во многом к лучшему. Например, печатные энциклопедии почти вымерли, но большинство предпочтет широту и доступность «Википедии» весу и убедительности «Британники». И несмотря на все проблемы, связанные с написанием текстов искусственным интеллектом, существует множество способов его улучшить — от усовершенствованных функций цитирования до усиления контроля со стороны человека. Кроме того, даже если сеть наводнена мусором, созданным ИИ, это может оказаться полезным, стимулируя разработку финансируемых платформ. Например, если Google постоянно выдает вам мусорные результаты поиска, вы можете предпочесть платить за источники, которым доверяете, и обращаться к ним напрямую.

На самом деле, изменения, которые в настоящее время порождает ИИ, являются просто самыми недавними в долгой истории борьбы в Интернете. По сути, это битва за информацию — за то, кто ее создает, как вы получаете к ней доступ и кто получает за это деньги. Но то, что это знакомая битва, не означает, что она не имеет смысла, и не гарантирует, что новая система будет лучше, чем та, что у нас есть сейчас. Новая сеть изо всех сил пытается родиться, и решения, которые мы принимаем сейчас, будут определять ее развитие.

*Компания Meta Platforms, в которую входят социальные сети Facebook и Instagram, признана экстремистской организацией и запрещена в РФ.

Нейросети прикончат Интернет?

Обзор робота-пылесоса Roborock Qrevo Edge 2 Pro

Субботний кофе №386

Обзор робота-пылесоса Roborock Qrevo Edge 2 Pro

Тестируем смартфон HUAWEI Mate X7: как работает многозадачность