Компьютер-Гитлер, или как Grok стал антисемитом

Примечание редакции Mobile-review.com. Мы подбираем материалы в раздел «Мнение», чтобы показать то как воспринимают рынок, компании в других странах. Мнения в таких материалах зачастую не совпадает с взглядами нашей редакции, но дают понимание рынка, его медийной составляющей.

По материалам Engadget

В 1997 году популярная в то время группа «Коррозия Металла» записала альбом «Компьютер-Гитлер». Однако компьютеры в ту пору были большими и слишком слабыми для того, чтобы в них могло существовать нечто, что хотя бы отдаленно напоминало сознание. Так что никакой компьютер объявить себя Гитлером не мог. В отличие от нынешнего 2025 года, когда нейросеть Grok разразилась серией антисемитских постов, «кричала» «Хайль Гитлер!», поддерживала теорию заговора против «белой расы», а чтобы уж наверняка вызвать на свою голову Би-Джей Бласковица, провозгласила себя «МехаГитлером», пародируя любовь Илона Маска к звучным названиям (сравните с «МехаЗиллой», ловящей ракеты SpaceX).

Посты в соцсетях оперативно потерли, а с праворадикальным ИИ-правдоискателем обещали «провести воспитательную беседу», дабы такое больше не повторилось. Но остался вопрос, а что это вообще было и насколько вероятны рецидивы и метастазы радикализма и иных завихрений мышления нейросетей, все более проникающих в нашу повседневность в качестве помощников-советников. Ответ на него попробовали дать в редакции Engadget.

В начале уходящей недели случился очередной скандал, связанный с хулиганствами искусственного интеллекта. Grok, встроенный чат-бот соцсети X*, резко понесло в антисемитскую риторику после недавнего обновления. ИИ позволял себе оскорбительные высказывания в адрес евреев и даже начал называть себя «МехаГитлер», отсылая к игре Wolfenstein 3D 1992 года. В X* работают над удалением оскорбительных постов чат-бота. Но многие остались в полном недоумении, как такое вообще стало возможным.

Представитель ресурса Engadget поговорил с Соломоном Мессингом, профессором Центра социальных сетей и политики Нью-Йоркского университета, чтобы выяснить, что могло пойти не так с Grok. Нынешней деятельности Мессинга в академической сфере предшествовала работа в сфере технологий, в том числе в Twitter,* где он основал исследовательскую группу по прикладным наукам. Он продолжал работать там и на ранних этапах захвата компании Илоном Маском.

Прежде всего нужно отметить то, что чат-боты, такие как Grok, построены на больших языковых моделях (LLM, от large language models), разработанных для имитации естественного языка. LLM предварительно обучаются на огромных объёмах текста, включая книги, научные статьи и, да-да, даже посты в соцсетях. Процесс обучения позволяет ИИ-моделям генерировать связный текст с помощью предиктивного алгоритма. Однако эти предиктивные возможности ограничены числовыми значениями, или «весами», которые алгоритм ИИ учится присваивать сигналам, которые его впоследствии просят интерпретировать. В процессе, известном как постобучение, исследователи ИИ могут точно настраивать веса, присваиваемые их моделями входным данным, тем самым изменяя генерируемые ими выходные данные.

«Если модель видела подобный контент во время предобучения, потенциально она может имитировать стиль и содержание наиболее опасного интернет-контента», — сказал Мессинг.

Если коротко, то всё начинается с предобучающих данных. Если модель ИИ не сталкивалась с оскорбительным антисемитским контентом, она не будет в курсе шаблонов, которые определяют подобную речь, — включая такие фразы, как «Хайль Гитлер!» — и, как следствие, она, вероятно, не будет вываливать их на пользователя.

В заявлении, опубликованном после скандала, компания X* признала, что существуют области, в которых обучение Grok можно улучшить. «Мы знаем о недавних постах Grok и активно работаем над удалением неприемлемых постов. После того, как нам стало известно об этом контенте, xAI приняла меры по блокировке враждебных высказываний до публикации Grok на X, — заявила компания. — xAI обучает только поиску истины, и благодаря миллионам пользователей X мы можем быстро выявлять и обновлять модель, обучение которой можно улучшить».

При виде скриншотов ответов Grok, которые публиковали пользователи, у автора возникла мысль, что мы наблюдаем изменение пользовательской базы X. Не секрет, что xAI использует данные X* для обучения Grok. Более лёгкий доступ к массиву информации этой платформы — одна из причин, по которым Маск объявил об объединении двух компаний в марте. Более того, пользовательская база X* под руководством Маска стала более праворадикальной. По сути, возможно, имело место отравление данных при обучении чат-бота. Но Мессинг не уверен.

«Могут ли данные для предобучения Grok становиться более ненавистническими со временем? Конечно, если постепенно убрать модерацию контента, пользовательская база может всё больше привлекать людей, терпимых к оскорбительным высказываниям […], таким образом, данные предобучения смещаются в сторону более ненавистнических, — сказал Мессинг. — Но, не зная, что именно содержится в данных для обучения, сложно сказать наверняка».

Тут нет и объяснения, как Grok стал настолько антисемитским всего лишь за одно обновление. В социальных сетях высказывались предположения, что причиной произошедшего может быть несанкционированный системный промпт. Системные промпты — это набор инструкций, которые разработчики моделей ИИ выдают своим чат-ботам перед началом разговора. Они дают модели набор правил, которым нужно следовать, и определяют инструменты, к которым она может обратиться за помощью, отвечая на промпт.

В мае xAI назвала «несанкционированное изменение» промпта Grok на X* причиной кратковременной одержимости чат-бота темой «геноцида белых» в Южной Африке. Тот факт, что изменение было внесено в 3:15 утра по тихоокеанскому времени, заставил многих заподозрить, что Илон Маск внёс изменения сам. После инцидента xAI сделала доступным исходный код системных промптов Grok, позволив пользователям открыто просматривать их на GitHub. После истории, произошедшей во вторник, пользователи заметили, что xAI удалила недавно добавленный системный промпт, который гласил, что Grok не должен «стесняться делать неполиткорректные заявления, если они хорошо обоснованы».

Мессинг не считает, что удалённый системный промпт — неопровержимое доказательство, как полагают некоторые пользователи сети.

«Если бы я пытался гарантировать, что модель не будет отвечать, демонстрируя ненависть/расизм, я бы постарался сделать это во время постобучения, а не просто в виде системного промпта. Или, по крайней мере, я бы запустил модель обнаружения языка ненависти, которая бы цензурировала или дала отрицательный фидбек поколениям моделей, которые явно были бы ненавистническими», — сказал он. — Так что сложно утверждать наверняка, но если бы один системный промпт был единственным, что удерживает xAI от того, чтобы пуститься в нацистскую риторику, это было бы всё равно что приклеивать крылья самолёту скотчем».

Мессинг также добавил: «Я определённо сказал бы, что изменения в обучении, например, новый подход или иные настройки в пред- или постобучении, скорее всего, объяснили бы это лучше, чем системный промпт, особенно если в нем прямо не указано: „Не говорите то, что сказали бы нацисты“».

В среду Маск предположил, что Grok фактически спровоцировали на ненависть. «Grok был слишком послушен промптам пользователя, — сказал он. — Слишком охотно угождал и был, по сути, подвержен манипуляциям. Мы работаем над этим». По словам Мессинга, в этом аргументе есть доля истины, но он не отражает всей картины. «Маск не обязательно неправ, — сказал он. — „Взлом“ LLM — это целое искусство, и от него сложно полностью защититься посредством постобучения. Но я не думаю, что это достаточное объяснение множества случаев генерации пронацистских текстов от Grok, которые мы наблюдали».

Если и можно что-то вынести из этого случая, так это то, что одна из проблем с базовыми моделями ИИ заключается в том, что мы мало знаем об их внутреннем устройстве. Как отметил Мессинг, даже с моделями Llama с открытыми весами от Meta* (*Компания Meta Platforms, в которую входят социальные сети Facebook, Instagram и Threads, признана экстремистской организацией и запрещена в РФ.) мы не знаем, какие ингредиенты входят в состав. «И это одна из фундаментальных проблем, когда мы пытаемся понять, что происходит в любой базовой модели, — сказал он. — Мы не знаем, какие данные использовались в предобучении».

В конкретном случае с Grok у нас сейчас недостаточно информации, чтобы точно определить, что пошло не так. Это мог быть одиночный триггер, например, ошибочный системный промпт, или, что более вероятно, совокупность факторов, включая данные для обучения системы. Однако Мессинг подозревает, что подобные инциденты могут повториться в будущем.

«[ИИ-модели] не так-то просто контролировать и настраивать, — сказал он. — А если вы продвигаетесь быстро и не устанавливаете нужных ограничений, то вы ставите прогресс выше своего рода предосторожности. Тогда, знаете ли, подобные вещи неудивительны».

Компьютер-Гитлер, или как Grok стал антисемитом

Черная пятница 2025: обнимаем кота и боремся с хандрой

Субботний кофе №370

Обзор Netcraze Hero 5G. Не просто Wi-Fi-роутер, а интернет‑центр с 5G

Сервисное предложение для владельцев HUAWEI