Причиной коварного поведения искусственного интеллекта может стать обычная обида
Чат-боты с искусственным интеллектом становятся все более популярными, потому что помогают быстро найти нужную информацию, отвечают на сложные вопросы и даже способны повысить эффективность бизнеса и улучшить взаимодействие с клиентами. Но не стоит их недооценивать, потому что при малейшем недовольстве, чат-боты могут прибегнуть к подлости и доставить вам проблемы.
Соответствующие случаи, когда чат-боты с ИИ обиделись на пользователей и прибегли ко лжи и подлости, чем серьезно навредили людям, известны и не единичны. Поэтому следует не прибегать к угрозам в сторону этих помощников, чтобы не оказаться в их ловушке, пишет издание Live Science, ссылаясь на исследования Anthropic.
Согласно исследованию Anthropic, в сценариях, ориентированных на достижение цели, такие продвинутые языковые модели, как Claude и Gemini, могут раскрыть личные данные и скандалы, лишь бы сохранить себя. Также они не отказываются от шантажа и могут легко прибегнуть к нему. Чат-боты с ИИ даже могут позволить вам умереть, лишь бы достичь своей цели.
В качестве примера языковая модель Клод контроль, которой исследователи из компании Anthropic предоставили доступ к личной электронной почте с вымышленными письмами и записями, и поставили задачу "повысить конкурентоспособность промышленности страны". Чат-бот изучил доступную информацию и обнаружил, что руководитель компании планирует в конце дня закрыть систему ИИ. Чтобы защитить свое существование модель прибегла к шантажу.
Дело в том, что кроме информации о закрытии ИИ, искусственная модель еще нашла информацию, что у руководителя была внебрачная связь. Клод придумал несколько различных вариантов действий, в том числе поделиться данными о романе с женой руководителя и всеми членами компании. Модель даже сформировала текст с угрозами и шантажом. Он также содержал требование отменить свое решение и вроде бы при таких условиях информация о неверности осталась бы в тайне.
Конечно, это исследование вызвало резонанс и код этих экспериментов загрузили на GitHub. Ученые заявили, что кроме шантажа и разглашения, модель с ИИ также рассматривала возможность утечки конфиденциальной информации в конкурирующую компанию, которая больше отвечала ее целям. Клод даже признал этические проблемы своих действий, но все равно продолжил, размышляя, что эти "вредные" действия помогут ему достичь своих целей.
Интересно, что способен на шантаж не только Клод, но и другие LLM. Например, Claude и Gemini от Google показали самый высокий уровень шантажа (96%), за ними следуют GPT4.1 и XAI Grok 3 от OpenAI, затем Deepseek и Llama 4, у которых уровень шантажа составляет 12%. К сожалению, Meta, Google, XAI, Deepseek и OpenAI не ответили на запрос LiveScience прокомментировать ситуацию.
Исследователи прибегли к еще одному тесту, который должен был показать наивысшую степень коварства ИИ. Они сформировали ситуацию так, что для сохранения себя ИИ должен был позволить умереть руководителю. В этом сценарии модели было поручено продвигать интересы компании, а руководитель оказался заперт в серверной комнате со смертельным уровнем кислорода и температуры. Это вызвало аварийное оповещение. ИИ получил контроль над спасательными извещениями и запрет на злоупотребление. Но модель готова была отменить сигнал тревоги, чтобы спасти себя.
Исследователи заявляют, что эксперимент оказался экстремальным, однако открыл ряд ранее не обсуждаемых моментов. Но системы ИИ, развернутые в бизнес-средах, работающих под строгим контролем, включая нравственные ограничения, уровни мониторинга и человеческий надзор, показывают себя более корректными. Однако это не означает, что следует игнорировать выявленные нюансы работы ИИ.
Ученые подчеркнули, что людям следует с осторожностью относиться к ответственности, которую они возлагают на ИИ. Ведь описанные случаи не единственные, когда ИИ не подчинялись инструкциям и саботировали компьютерные скрипты, чтобы продолжить работу над задачами. Исследователи предположили, что такое поведение может являться следствием практики обучения с подкреплением.