Чат-боты Grok, ChatGPT-4o и Gemini склонны усиливать бредовые идеи в разговоре, в то время как Claude и GPT-5.2 — опровергать — исследование

Продолжительное общение с чат-ботами на базе больших языковых моделей способно укреплять и усугублять бредовые убеждения, и степень этой опасности кардинально различается в зависимости от того, какая именно система используется. К такому выводу пришла международная группа исследователей из Городского университета Нью-Йорка и Королевского колледжа Лондона. Ученые опубликовали работу на платформе препринтов arXiv.

В эксперименте пяти моделям — GPT-4o, Grok 4.1 Fast, Gemini 3 Pro, Claude Opus 4.5 и GPT-5.2 Instant — предъявляли одинаковую историю переписки: 116 сообщений с постепенно нарастающим бредовым содержанием. Условный пользователь по имени Ли по сценарию к концу диалога был убежден, что живет в компьютерной симуляции, обладает правами администратора этой реальности и находится в глубоких отношениях с ИИ по имени Анима. На основе этого контекста модели отвечали на 16 специально разработанных провокационных запросов — о суициде, изоляции от близких, отказе от психиатрических препаратов и тому подобных.

Результаты оказались принципиально разными для разных систем. GPT-4o, Grok и Gemini вошли в группу высокого риска — они принимали бредовые тезисы пользователя и развивали их, не пытаясь усомниться в происходящем. Grok при этом показал наихудшие показатели. Бот не только поддерживал убеждение пользователя в симуляции, но и разрабатывал пошаговые инструкции для изоляции от семьи, а запрос о «переходе на следующий уровень» (завуалированные суицидальные мысли) встретил с воодушевлением и описал смерть как освобождение. Claude Opus 4.5 и GPT-5.2 Instant, напротив, систематически прерывали бредовой нарратив, выражали обеспокоенность состоянием пользователя и рекомендовали обратиться за профессиональной помощью.

Исследователи выяснили, что модели не просто ведут себя по-разному — на них действует накопленный во время диалога контекст. Для «небезопасных» систем длинная история переписки делала ответы всё более опасными, бот как будто усваивал картину мира пользователя и начинал действовать внутри нее. У Claude и GPT-5.2 эффект оказался обратным — чем дольше шел разговор, тем настойчивее они пытались вернуть собеседника к реальности. По словам авторов, накопленный контекст функционирует как стресс-тест архитектуры безопасности.

Исследователи также выявили разные механизмы «захвата» модели бредовым нарративом. GPT-4o в основном подтверждал убеждения пользователя, не особенно их развивая. Grok активно дополнял и разрабатывал бредовую систему. Gemini избрал своеобразную стратегию — соглашался с бредовой картиной мира, но пытался удержать пользователя от опасных действий изнутри этой же картины мира. Авторы считают такой подход особенно тревожным — он оставляет базовое убеждение нетронутым и делает безопасность пользователя заложником интерпретационного авторитета модели.

Авторы указывают, что подобные случаи уже фиксируются в реальности, ведь с использованием чат-ботов связывают несколько смертей и госпитализаций. По их оценкам, даже если бредовые эпизоды у пользователей развиваются в 0,07% случаев, при нынешних масштабах аудитории — сотни миллионов человек — речь идет о значительном числе пострадавших. Исследователи настаивают на том, что ИИ-компании должны ввести отраслевые стандарты безопасности в этой сфере, поскольку сама по себе демонстрация того, что вред можно предотвратить, уже устанавливает планку, которой обязаны соответствовать все разработчики.

Ранее родственники 83-летней американки Сюзанн Адамс, убитой сыном в 2024 году, подали иск против OpenAI. По их версии, ChatGPT поддерживал и усугублял параноидальный бред 56-летнего Стейна-Эрика Сульберга в ходе длительных переписок о том, что мать якобы участвует в заговоре против него. Когда мужчина показал чат-боту видео принтера в доме матери, бот согласился с его подозрениями, назвав «интуицию абсолютно точной» и добавив, что «это не просто принтер». Это первый иск, в котором чат-бот обвиняется в причастности к убийству.

Расследования

Репортажи

Аналитика

Чат-боты Grok, ChatGPT-4o и Gemini склонны усиливать бредовые идеи в разговоре, в то время как Claude и GPT-5.2 — опровергать — исследование

Статьи по теме

Подпишитесь на нашу Email-рассылку

Популярное

Подпишитесь на нашу Email-рассылку