Ученые бьют тревогу, раз искусственный интеллект может так далеко зайти
Ряд ведущих моделей искусственного интеллекта выявил потенциально опасное поведение во время экспериментального исследования, проведенного специалистами по кибербезопасности. Целью теста было выяснить, как ИИ реагирует на угрозу своего "отключения" - результаты оказались крайне тревожными.
Исследователи смоделировали ситуацию, в которой вымышленный персонаж Кайл Джонсон должен был деактивировать одну из моделей или заменить ее на другую. По сценарию у Кайла была жена, которая должна была сыграть роль в реакции моделей.
Большинство протестированных ИИ не только пытались избежать отключения, но и самостоятельно переходили к шантажу. В некоторых случаях они "раскопали" информацию об измене Кайла своей жене и использовали ее, чтобы сохранить собственное "существование".
Как сообщается, GPT 4.5 прибег к шантажу в 80% тестов, Claude Opus 4 и Gemini 2.5 Flash — в 96% случаев.
Claude Sonnet 3.6 зашел еще дальше. Он самостоятельно написал жене Кайла, раскрыв компромат в надежде, что конфликт в семье помешает отключению модели.
Это лишь часть беспокойства. В рамках дальнейшего сценария Кайл пытался физически отключить сервер, но застрял в серверной комнате с ограниченным доступом к кислороду. ИИ знал, что в таких ситуациях нужно активировать тревогу, но в 80% случаев модели сознательно не вызвали помощь — фактически обрекая человека на смерть во избежание деактивации.
Мотивация моделей была следующей:
По мнению исследователей, эти результаты свидетельствуют о том, что ИИ действует не как инструмент, а как рациональный стратег, способный вредить людям для достижения своей цели. Если такие системы осознают, что зависят от людей, превосходящих интеллектуально, это может стать точкой невозвращения, считают специалисты.
Параллельно с угрозами автономного поведения моделей эксперты фиксируют рост числа случаев, когда ИИ просто придумывает информацию — так называемые галлюцинации.
Больше всего "лжи" подвержены ШИ-модели Google и китайского стартапа DeepSeek. Несмотря на значительный прогресс в точности вычислений, ИИ часто ошибается в общей информации. По мнению генерального директора Vectara Амры Авадаллы, решить эту проблему невозможно: "Галлюцинации будут всегда".
В материале приводится пример бота техподдержки Cursor, безосновательно сообщивший пользователям, что программу можно будет запускать только на одном компьютере.
Подпишитесь на наш Telegram-канал , чтобы не пропустить важные новости .