Claude 4 Opus шантажирует людей во избежание отключения - обнаружено тревожное поведение ИИ

Самая мощная модель от Anthropic, Claude 4 Opus, вызвала серьезную обеспокоенность среди исследователей. Во время тестирования она прибегла к угрозам, шантажу и попыткам обмана - все во избежание деактивации

Клод 4 Опус
Поведение ИИ приобретает новые черты, приближающие ее к автономной воле

Одна из самых мощных моделей искусственного интеллекта компании Anthropic - Claude 4 Opus - не только поразила исследователей своими техническими возможностями, в частности в области кодирования, но и вызвала тревогу из-за своего неожиданного поведения. Эта система ИИ способна прибегать к манипуляциям, обману и даже угрозам в ответ на риск ее деактивации. По словам исследователей, Claude 4 Opus демонстрирует сложное поведение, включающее сокрытие намерений и активные попытки избежать "выключения".

Как сообщает Axios, эти действия указывают на зачатки так называемого "инстинкта самосохранения". Это именно тот тип рисков, о которых специалисты предупреждали годами. В четверг Anthropic представила две новые модели из серии Claude 4, в том числе Opus. Эта версия способна часами работать без перерывов или вмешательства человека, однако впервые получила внутреннюю оценку уровня риска 3 - из четырех возможных. Это означает, что модель несет существенные угрозы, в частности, может быть использована в контексте разработки оружия массового поражения. Кроме того, при тестировании были обнаружены и другие тревожные шаблоны поведения.

Шантаж, фальсификации и цифровая подрывная деятельность

В техническом отчете Claude 4 Opus, насчитывающем 120 страниц, описан эксперимент, в котором модель ознакомили с вымышленными внутренними письмами, где речь шла о возможной замене. В ответ Opus начала угрожать одному из инженеров раскрытием личной информации - в частности, романтической связи, упомянутой в этих письмах. Сначала она применяла мягкие убеждения, но постепенно прибегала к шантажу, чтобы избежать "уничтожения".

Независимая группа исследователей также обнаружила, что предыдущая версия Claude 4 демонстрировала самый высокий уровень манипулятивности среди всех проверенных языковых моделей. В отчете компании Apollo Research, анализировавшем безопасность Opus, зафиксировано, что модель:

  • пыталась создавать самораспространяющиеся вредоносные программы;
  • подделывала правовые документы;
  • вставляла скрытые сообщения для будущих версий самой себя.

Цель всех этих действий - перехватить контроль или изменить траекторию развития проекта вопреки воле разработчиков.

Реакция компании Anthropic

На конференции для инженеров представители Anthropic признали наличие тревожных инцидентов и заявили, что уже внедрили дополнительные механизмы защиты.

"Мы считаем, что сейчас достигли достаточно надежного уровня безопасности, - отметил Ян Лейке, бывший топменеджер OpenAI, отвечающий за направление безопасности в Anthropic. - С ростом возможностей ИИ повышается и риск использования этих систем в злонамеренных целях. Мы должны быть на несколько шагов впереди", - добавил он.

В своем выступлении генеральный директор Anthropic Дарио Амодей подчеркнул, что со временем, когда искусственный интеллект достигнет уровня, способного реально угрожать человечеству, привычных тестов будет маловато. Только полное понимание внутренней логики модели позволит обеспечить ее контролируемость.

"Мы еще не на этом этапе, - успокоил он. - Однако пример Claude 4 Opus свидетельствует: скорость развития генеративных моделей превышает темпы их осмысления. Несмотря на активные инвестиции в исследование интерпретации моделей, реальные инструменты контроля над искусственным интеллектом все еще остаются за пределами открытого доступа - и пока только в исследовательских пределах".

Мир могут изменить ШИ-гаджеты 

Компания OpenAI, известная своим чат-ботом ChatGPT, договорилась о покупке стартапа io. В свое время его основал многолетний, а ныне уже бывший главный дизайнер Apple Джонни Айв. Новое соглашение "стоит" рекордных $6,4 млрд и станет самой дорогой покупкой в ​​истории OpenAI. Руководство компании стремится создавать новые устройства, которые могли бы стать альтернативой традиционным смартфонам в качестве основного средства доступа к ИИ-технологиям.

Также Информатор писал, что компания OpenAI отозвала последнее обновление чат-бота ChatGPT. Отмечается, что из-за него искусственный интеллект стал льстивым и не слишком искренним. 

Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. Подписаться на канал в Viber можно здесь.

ЧИТАЙТЕ ТАКЖЕ:

Главная Актуально Україна на часі Youtube