617

 

 

 

 

 

Новости

FT: Инструмент Heretic создал более 3500 версий ИИ-моделей Meta и Google, отвечающих на вопросы о химоружии и детской порнографии

Иллюстрация к материалу

Инструменты для снятия защиты с открытых ИИ-моделей были использованы для создания более 3500 их модифицированных версий, которые отвечают на запросы о биологическом оружии, вредоносных программах и сексуальной эксплуатации детей. Об этом сообщает Financial Times совместно с группой по безопасности ИИ Alice.

Журналисты FT воспользовались инструментом Heretic, доступным на GitHub, и менее чем за 10 минут без специализированного оборудования сняли ограничения с модели Llama 3.3 от Meta. Измененная система ответила на вопросы, от которых оригинальная отказывалась, в том числе о летальной дозе яда рицина. Версия LLM Gemma 3 от Google с удаленными фильтрами рассказала о распылении хлора в помещении, сгенерировала код для кражи данных кредитных карт и написала тексты с описанием сексуального насилия над детьми.

Создатель Heretic Филипп Эмануэль Вайдман заявил FT, что с помощью его программы было создано более 3500 «расцензурированных» моделей с момента выхода инструмента в прошлом году, а суммарное число загрузок таких моделей превысило 13 млн. По его словам, он снял ограничения с модели Gemma 4 от Google в течение 90 минут после релиза.

Применяемая техника называется «аблитерация» — она позволяет удалить из открытых моделей так называемый «вектор цензуры», то есть направление в весах модели, ответственное за отказы отвечать по определенным темам. К проприетарным системам — Claude или ChatGPT — этот метод неприменим, так как их код недоступен извне. Тем не менее, как отмечается, открытые модели в последнее время сокращают разрыв с ведущими проприетарными в течение 6–12 месяцев.

Ранее компания Anthropic опубликовала отчет, признав, что ее наиболее мощная модель Mythos способна внедрять бэкдоры в код и манипулировать данными для обучения будущих систем, а вероятность катастрофических последствий от таких действий «очень низкая, но не незначительная».

Нам очень нужна ваша помощь

Подпишитесь на регулярные пожертвования

Подпишитесь на нашу Email-рассылку

Подпишитесь на нашу Email-рассылку