Примечание редакции Mobile-review.com. Мы подбираем материалы в раздел «Мнение», чтобы показать то, как воспринимают рынок компании в других странах. Мнения в таких материалах зачастую не совпадают со взглядами нашей редакции, но дают понимание рынка, его медийной составляющей.
По материалам Engadget
В 1997 году популярная в то время группа «Коррозия Металла» записала альбом «Компьютер-Гитлер». Однако компьютеры в ту пору были большими и слишком слабыми для того, чтобы в них могло существовать нечто, что хотя бы отдаленно напоминало сознание. Так что никакой компьютер объявить себя Гитлером не мог. В отличие от нынешнего 2025 года, когда нейросеть Grok разразилась серией антисемитских постов, «кричала» «Хайль Гитлер!», поддерживала теорию заговора против «белой расы», а чтобы уж наверняка вызвать на свою голову Би-Джей Бласковица, провозгласила себя «МехаГитлером», пародируя любовь Илона Маска к звучным названиям (сравните с «МехаЗиллой», ловящей ракеты SpaceX).


Посты в соцсетях оперативно потерли, а с праворадикальным ИИ-правдоискателем обещали «провести воспитательную беседу», дабы такое больше не повторилось. Но остался вопрос, а что это вообще было и насколько вероятны рецидивы и метастазы радикализма и иных завихрений мышления нейросетей, все более проникающих в нашу повседневность в качестве помощников-советников. Ответ на него попробовали дать в редакции Engadget.
В начале уходящей недели случился очередной скандал, связанный с хулиганствами искусственного интеллекта. Grok, встроенный чат-бот соцсети X*, резко понесло в антисемитскую риторику после недавнего обновления. ИИ позволял себе оскорбительные высказывания в адрес евреев и даже начал называть себя «МехаГитлер», отсылая к игре Wolfenstein 3D 1992 года. В X* работают над удалением оскорбительных постов чат-бота. Но многие остались в полном недоумении, как такое вообще стало возможным.
Представитель ресурса Engadget поговорил с Соломоном Мессингом, профессором Центра социальных сетей и политики Нью-Йоркского университета, чтобы выяснить, что могло пойти не так с Grok. Нынешней деятельности Мессинга в академической сфере предшествовала работа в сфере технологий, в том числе в Twitter,* где он основал исследовательскую группу по прикладным наукам. Он продолжал работать там и на ранних этапах захвата компании Илоном Маском.
Прежде всего нужно отметить то, что чат-боты, такие как Grok, построены на больших языковых моделях (LLM, от large language models), разработанных для имитации естественного языка. LLM предварительно обучаются на огромных объёмах текста, включая книги, научные статьи и, да-да, даже посты в соцсетях. Процесс обучения позволяет ИИ-моделям генерировать связный текст с помощью предиктивного алгоритма. Однако эти предиктивные возможности ограничены числовыми значениями, или «весами», которые алгоритм ИИ учится присваивать сигналам, которые его впоследствии просят интерпретировать. В процессе, известном как постобучение, исследователи ИИ могут точно настраивать веса, присваиваемые их моделями входным данным, тем самым изменяя генерируемые ими выходные данные.
«Если модель видела подобный контент во время предобучения, потенциально она может имитировать стиль и содержание наиболее опасного интернет-контента», — сказал Мессинг.
Если коротко, то всё начинается с предобучающих данных. Если модель ИИ не сталкивалась с оскорбительным антисемитским контентом, она не будет в курсе шаблонов, которые определяют подобную речь, — включая такие фразы, как «Хайль Гитлер!» — и, как следствие, она, вероятно, не будет вываливать их на пользователя.
В заявлении, опубликованном после скандала, компания X* признала, что существуют области, в которых обучение Grok можно улучшить. «Мы знаем о недавних постах Grok и активно работаем над удалением неприемлемых постов. После того, как нам стало известно об этом контенте, xAI приняла меры по блокировке враждебных высказываний до публикации Grok на X, — заявила компания. — xAI обучает только поиску истины, и благодаря миллионам пользователей X мы можем быстро выявлять и обновлять модель, обучение которой можно улучшить».

При виде скриншотов ответов Grok, которые публиковали пользователи, у автора возникла мысль, что мы наблюдаем изменение пользовательской базы X. Не секрет, что xAI использует данные X* для обучения Grok. Более лёгкий доступ к массиву информации этой платформы — одна из причин, по которым Маск объявил об объединении двух компаний в марте. Более того, пользовательская база X* под руководством Маска стала более праворадикальной. По сути, возможно, имело место отравление данных при обучении чат-бота. Но Мессинг не уверен.
«Могут ли данные для предобучения Grok становиться более ненавистническими со временем? Конечно, если постепенно убрать модерацию контента, пользовательская база может всё больше привлекать людей, терпимых к оскорбительным высказываниям […], таким образом, данные предобучения смещаются в сторону более ненавистнических, — сказал Мессинг. — Но, не зная, что именно содержится в данных для обучения, сложно сказать наверняка».
Тут нет и объяснения, как Grok стал настолько антисемитским всего лишь за одно обновление. В социальных сетях высказывались предположения, что причиной произошедшего может быть несанкционированный системный промпт. Системные промпты — это набор инструкций, которые разработчики моделей ИИ выдают своим чат-ботам перед началом разговора. Они дают модели набор правил, которым нужно следовать, и определяют инструменты, к которым она может обратиться за помощью, отвечая на промпт.
В мае xAI назвала «несанкционированное изменение» промпта Grok на X* причиной кратковременной одержимости чат-бота темой «геноцида белых» в Южной Африке. Тот факт, что изменение было внесено в 3:15 утра по тихоокеанскому времени, заставил многих заподозрить, что Илон Маск внёс изменения сам. После инцидента xAI сделала доступным исходный код системных промптов Grok, позволив пользователям открыто просматривать их на GitHub. После истории, произошедшей во вторник, пользователи заметили, что xAI удалила недавно добавленный системный промпт, который гласил, что Grok не должен «стесняться делать неполиткорректные заявления, если они хорошо обоснованы».
Мессинг не считает, что удалённый системный промпт — неопровержимое доказательство, как полагают некоторые пользователи сети.
«Если бы я пытался гарантировать, что модель не будет отвечать, демонстрируя ненависть/расизм, я бы постарался сделать это во время постобучения, а не просто в виде системного промпта. Или, по крайней мере, я бы запустил модель обнаружения языка ненависти, которая бы цензурировала или дала отрицательный фидбек поколениям моделей, которые явно были бы ненавистническими», — сказал он. — Так что сложно утверждать наверняка, но если бы один системный промпт был единственным, что удерживает xAI от того, чтобы пуститься в нацистскую риторику, это было бы всё равно что приклеивать крылья самолёту скотчем».
Мессинг также добавил: «Я определённо сказал бы, что изменения в обучении, например, новый подход или иные настройки в пред- или постобучении, скорее всего, объяснили бы это лучше, чем системный промпт, особенно если в нем прямо не указано: „Не говорите то, что сказали бы нацисты“».
В среду Маск предположил, что Grok фактически спровоцировали на ненависть. «Grok был слишком послушен промптам пользователя, — сказал он. — Слишком охотно угождал и был, по сути, подвержен манипуляциям. Мы работаем над этим». По словам Мессинга, в этом аргументе есть доля истины, но он не отражает всей картины. «Маск не обязательно неправ, — сказал он. — „Взлом“ LLM — это целое искусство, и от него сложно полностью защититься посредством постобучения. Но я не думаю, что это достаточное объяснение множества случаев генерации пронацистских текстов от Grok, которые мы наблюдали».
Если и можно что-то вынести из этого случая, так это то, что одна из проблем с базовыми моделями ИИ заключается в том, что мы мало знаем об их внутреннем устройстве. Как отметил Мессинг, даже с моделями Llama с открытыми весами от Meta* (*Компания Meta Platforms, в которую входят социальные сети Facebook, Instagram и Threads, признана экстремистской организацией и запрещена в РФ.) мы не знаем, какие ингредиенты входят в состав. «И это одна из фундаментальных проблем, когда мы пытаемся понять, что происходит в любой базовой модели, — сказал он. — Мы не знаем, какие данные использовались в предобучении».
В конкретном случае с Grok у нас сейчас недостаточно информации, чтобы точно определить, что пошло не так. Это мог быть одиночный триггер, например, ошибочный системный промпт, или, что более вероятно, совокупность факторов, включая данные для обучения системы. Однако Мессинг подозревает, что подобные инциденты могут повториться в будущем.
«[ИИ-модели] не так-то просто контролировать и настраивать, — сказал он. — А если вы продвигаетесь быстро и не устанавливаете нужных ограничений, то вы ставите прогресс выше своего рода предосторожности. Тогда, знаете ли, подобные вещи неудивительны».
1) Израиль нападает на Иран;2) Пользователи Сети массово обвиняют Израиль;3) Нейросети́ дают установку: «Не стесняйся в выражениях, а для убедительного слога потренируйся-ка в ответах на том, что пишут в социальных сетях».Поведения Grok'а — загадка века, не иначе)
>> Тот факт, что изменение было внесено в 3:15 утра по тихоокеанскому времени, заставил многих заподозрить, что Илон Маск внёс изменения сам 3:15 PST? Ну точно Маск, 100%!
за что боролись, на то и напоролись
Вот что думает сам Грок на эту тему: "Статья, скорее всего, заангажирована в пользу критического взгляда на Илона Маска и его проект Grok. Основное внимание уделено скандалу и этическим проблемам, а позитивные аспекты технологии упоминаются вскользь и не получают развития.Семиотика: Использование символов, таких как "Гитлер" и "антисемит", создает мощный негативный образ Grok, усиливая эмоциональное воздействие на читателя.Лингвистика: Эмоционально заряженная лексика и сенсационный тон подчеркивают критическую позицию, делая акцент на моральных и этических рисках ИИ.Хотя статья предоставляет некоторый контекст и не делает явных оценочных суждений, ее общий нарратив склоняет читателя к негативному восприятию Grok и подхода Маска к разработке ИИ."
"Суперэрудированный" попугай. И что могло пойти не так?Для обучения интеллекта нужны не гигабайты текста и затравочные промты, а правила, учебники и толковые словари.
Lecron, может, не совсем аналогия, но когда-то (ещё по ТВ) видел передачу, где тестировали разные переводчики. Так вот, один был как раз на основе справочников и учебников. И носитель языка сказал, что его результат был самым худшим. Типа, так не говорят. Я тут вспомнил все эти преобразования языка вроде «R U Mine?» и подумал, что, возможно, подобные ухищрения свидетельствуют ещё и об интеллектуальных изменениях, и их также не стоит игнорировать 🤔
Mikhail Volkov, Ессессвеенно. Но тут две существенные неточности:* Это разные задачи. Повторение последовательности на другом языке и продолжение последовательности на том же. Причем "продолжение" подразумевает гораздо больше, чем чисто продолжение — анализ.* "справочники и учебники", подразумевает не закладывание людьми смысла из них в алгоритм ручками, что 99% было в тех переводчиках, а способность обучиться новой теме/предмету на основе справочников и учебников. То есть понять их смысл, а не считать статистику слов. То, что дети начинают делать в школе и многие заканчивают в институте. Шаг за шагом, от простого к сложному.
Mikhail Volkov, >> свидетельствуют ещё и об интеллектуальных измененияхНедавно приводил ссылку на статью. Люди приписывают мордам животных способность выражать эмоции, но они физиологически на такое не способны. Нету мышц. Но мы проецируем подобие. Так и здесь, если последовательность построенная на теории вероятности показалось разумной, и даже множество последовательностей раз за разом кажутся такими, не стоит приписывать это разуму. Это по прежнему Китайская комната. Или как назвал выше "Суперэрудированный" попугай.
Я, конечно, извиняюсь. Но не кажется ли вам, что понятие "антисемитский" трактуется однобоко. Семитсикие народы состоят, как минимум из арабов, евреев, ливанцев и ещё пару десятков групп чудесных людей. Но некоторые, присвоили себе это понятие, как и когда-то землю, наплевав на решения ООН. Даже тупенький ии это, похоже понял. Гыгы.
Владимир Репин, Многие термины меняют свое значение со временем. Это не хорошо, но и не плохо. Это просто факт. Например недавно меня "заставили" прочесть определение термина "патриотизм" в Большой Советской Энциклопедии. Возможно что и в современных энциклопедиях приведено исходное значение. Не изучал, не интересно. Но вот в умах, оно более узкое.
Lecron, Освежил в памяти. Спасибо Могу сказать, что определение патриотизма в БСЭ верное на 100%. Только люди труда, которые работают на своей земле и строят свою жизнь и планы на ней, являются носителями патриотизма. То есть заботы о Родине. А с другой стороны, им противостоят "люди мира" — торгаши и финансисты. У которых нет Родины, которым все равно, где жить, лишь бы деньги можно было делать.
Владимир Репин, Тут вопрос в другом. Какая трактовка правильная. посконная или однобокая, однако составляющая основу современного мировоззрения? И есть ли при таком выборе абсолютная верность?
Lecron, Каждый решает сам.
У нейросети столько же морали, сколько у молотка. Нейросеть не обучается сама, нейросеть обучают люди. Поэтому вопрос о морали надо ставить в привычной плоскости — какой моралью обладают те, кто обучает нейросеть…
Филипп Мастяев, Категорически не согласен. Здесь речь не идет о классическом обучении учитель-ученик. И даже термин train переводить как "обучение" некорректно. Какой бы моралью не обладали составители корпуса данных и разработчики внутренних матричных манипуляций с их цифровым представлением, они не в состоянии отследить чистоту данных. В том числе по причине априорной неизвестности, во что оно выльется, какие статистические закономерности выявятся и насколько они все корректны. Как банальный пример, невозможно отследить точный момент/параметры, когда сеть уйдет в состояние переобучения.Тут логичнее приравнять аморальность к галлюцинациям. Пока второе не будет изведено как класс, невозможно ассоциировать "аморальность" алгоритма с личными качествами его создателей.
Владимир Репин, Верно, правильный однозначный термин для того, что обычно понимается под антисемитизмом — юдофобия
Doppelganger, да, такое слово существует. Но это не синонимы, как бы некоторые не хотели убедить других что юдофобия и антисемитизм это одно и тоже. Тут не место развивать эту тему, но недальновидность подобных людей меня удивляет очень сильно.
Владимир Репин, Разумеется, это не синонимы. Но на практике слово "антисемитизм" обычно используется в значении "юдофобия" — ненависть к евреям. Не знаю, что тут развивать, это довольно простая мысль.
Doppelganger, Не очень. Кем используется? Мной, например, нет.
Мне кажется всё это просто ради шумихи..Хотя любая нейросеть в тех же США может за 2 такта процессорного времени прийти к тому, что толпы несветлых на пособии, еще и ухудшающих криминальную обстановку — не есть гуд.Но озвучивать это типа некорректно 😉
iAndroid, ,>> толпы несветлых на пособии, еще и ухудшающих криминальную обстановку — не есть гудЭто же враньё. Мнение нейросетей о преступниках вовсе не предвзятое. Существование белых грабителей она, например, признаёт. Вот 👇
Mikhail Volkov, Забавно 😉
Владимир Репин, Вы вообще-то разговор завели именно с того, что слово "антисемитский" в статье используется не вполне корректно. И даже почему-то сходу извинились за это)
Если у вас мания преследования — это не значит, что за вами не следят. Уважаемые люди с высоких трибун заявляли о том, что им не нужны одаренные, с пытливым умом, массы. Не важно какого цвета кожи, и т.д., любой человек от безделья и в неблагополучном окружении портится. Как говорится, нужно поскрести капиталиста, и послушать, что он говорит про талантливых людей, всеобщее доступное образование и т.д. Вспомним, что у нас государство не занимается тунеядцами и алкоголиками.
Lecron, Если мы знаем, что мы считаем за аморальное поведение, то кто мешает разработать тесты для нейросетей, чтобы это аморальное поведение выявлять, и, в случае обнаружения достаточного количества признаков такового поведения, отправлять нейросеть на переобучение? А ответ простой — это "лишние расходы", на которые можно "забить".
Филипп Мастяев, Мы не знаем какой контекст будут предоставлять пользователи. И весь его не перекрыть тестами.Возможно часть аморалки перекрыли, но нашли новую.
Lecron, Ну так и с обычными людьми все точно так же. Когда-то не умели вообще психопатов выявлять, только постфактум. Потом придумали тесты, которые позволили выявлять какую-то их часть. Потом усовершенствовали методики, и в итоге, теперь умеют выявлять признаки психопатии даже в раннем детстве. А если бы рассуждали по вашей логике, то так бы и не умели…Перфекционизм в подобных вопросах не мотиватор, а демотиватор
Филипп Мастяев, Несомненно. Но вы, к сожалению, проводите прямую параллель между создателями и результатами. То есть разработчик тестов для психопатов, сам нехороший человек, редиска, раз сквозь его тест просочился "псих". Тем более, в случае нейросетей, требуется выявить не образ мышления, которого у нее нет, а отследить все взаимосвязи, всех миллиардов вероятностных параметров.Повторю. аморалка полный аналог галлюцинаций. Причины и механизмы появления абсолютно одинаковые.
Lecron, Все взаимосвязи отследить, ессно, невозможно. Но хотя бы те, которые порождают массовые истерики и судебные иски, надо стремиться