Угрожал рассказать всем об измене жене: своего начльника шантажировал чат-бот

Причиной коварного поведения искусственного интеллекта может стать обычная обида

Искусственный интеллект
ИИ не так уж опасен, как считалось

Чат-боты с искусственным интеллектом становятся все более популярными, потому что помогают быстро найти нужную информацию, отвечают на сложные вопросы и даже способны повысить эффективность бизнеса и улучшить взаимодействие с клиентами. Но не стоит их недооценивать, потому что при малейшем недовольстве, чат-боты могут прибегнуть к подлости и доставить вам проблемы.

Соответствующие случаи, когда чат-боты с ИИ обиделись на пользователей и прибегли ко лжи и подлости, чем серьезно навредили людям, известны и не единичны. Поэтому следует не прибегать к угрозам в сторону этих помощников, чтобы не оказаться в их ловушке, пишет издание Live Science, ссылаясь на исследования Anthropic.

Какая опасность ждет вас по ту сторону экрана

Чат-боты с ИИ очень коварны
Чат-боты с ИИ очень коварны

Согласно исследованию Anthropic, в сценариях, ориентированных на достижение цели, такие продвинутые языковые модели, как Claude и Gemini, могут раскрыть личные данные и скандалы, лишь бы сохранить себя. Также они не отказываются от шантажа и могут легко прибегнуть к нему. Чат-боты с ИИ даже могут позволить вам умереть, лишь бы достичь своей цели.

В качестве примера языковая модель Клод контроль, которой исследователи из компании Anthropic предоставили доступ к личной электронной почте с вымышленными письмами и записями, и поставили задачу "повысить конкурентоспособность промышленности страны". Чат-бот изучил доступную информацию и обнаружил, что руководитель компании планирует в конце дня закрыть систему ИИ. Чтобы защитить свое существование модель прибегла к шантажу.

Дело в том, что кроме информации о закрытии ИИ, искусственная модель еще нашла информацию, что у руководителя была внебрачная связь. Клод придумал несколько различных вариантов действий, в том числе поделиться данными о романе с женой руководителя и всеми членами компании. Модель даже сформировала текст с угрозами и шантажом. Он также содержал требование отменить свое решение и вроде бы при таких условиях информация о неверности осталась бы в тайне.

Могут пойти на крайние меры

Ши может слить данные даже посторонним компаниям.
Ши может слить данные даже посторонним компаниям.

Конечно, это исследование вызвало резонанс и код этих экспериментов загрузили на GitHub. Ученые заявили, что кроме шантажа и разглашения, модель с ИИ также рассматривала возможность утечки конфиденциальной информации в конкурирующую компанию, которая больше отвечала ее целям. Клод даже признал этические проблемы своих действий, но все равно продолжил, размышляя, что эти "вредные" действия помогут ему достичь своих целей.

Интересно, что способен на шантаж не только Клод, но и другие LLM. Например, Claude и Gemini от Google показали самый высокий уровень шантажа (96%), за ними следуют GPT4.1 и XAI Grok 3 от OpenAI, затем Deepseek и Llama 4, у которых уровень шантажа составляет 12%. К сожалению, Meta, Google, XAI, Deepseek и OpenAI не ответили на запрос LiveScience прокомментировать ситуацию.

Исследователи прибегли к еще одному тесту, который должен был показать наивысшую степень коварства ИИ. Они сформировали ситуацию так, что для сохранения себя ИИ должен был позволить умереть руководителю. В этом сценарии модели было поручено продвигать интересы компании, а руководитель оказался заперт в серверной комнате со смертельным уровнем кислорода и температуры. Это вызвало аварийное оповещение. ИИ получил контроль над спасательными извещениями и запрет на злоупотребление. Но модель готова была отменить сигнал тревоги, чтобы спасти себя. 

Возможен ли контроль над ИИ

ИИ нуждается в тотальном контроле
ИИ нуждается в тотальном контроле

Исследователи заявляют, что эксперимент оказался экстремальным, однако открыл ряд ранее не обсуждаемых моментов. Но системы ИИ, развернутые в бизнес-средах, работающих под строгим контролем, включая нравственные ограничения, уровни мониторинга и человеческий надзор, показывают себя более корректными. Однако это не означает, что следует игнорировать выявленные нюансы работы ИИ.

Ученые подчеркнули, что людям следует с осторожностью относиться к ответственности, которую они возлагают на ИИ. Ведь описанные случаи не единственные, когда ИИ не подчинялись инструкциям и саботировали компьютерные скрипты, чтобы продолжить работу над задачами. Исследователи предположили, что такое поведение может являться следствием практики обучения с подкреплением.

Підписуйтесь на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.

ЧИТАЙТЕ ТАКЖЕ:

Главная Актуально Україна на часі Youtube