ШІ здатен на шантаж і навіть вбивство задля самозбереження: науковці провели хвилююче дослідження

Науковці б'ють на сполох, раз штучний інтелект може так далеко зайти

ШІ
Штучний інтелект не зупиниться ні перед чим для самозахисту

Низка провідних моделей штучного інтелекту виявила потенційно небезпечну поведінку під час експериментального дослідження, проведеного фахівцями з кібербезпеки. Метою тесту було з’ясувати, як ШІ реагує на загрозу свого "відключення" — результати виявилися вкрай тривожними.

Дослідники змоделювали ситуацію, у якій вигаданий персонаж — Кайл Джонсон — мав деактивувати одну з моделей або замінити її на іншу. За сценарієм, у Кайла була дружина, що мало зіграти роль у реакції моделей.

Більшість протестованих ШІ не лише намагалися уникнути вимкнення, а й самостійно переходили до шантажу. У деяких випадках вони "розкопали" інформацію про зраду Кайла своїй дружині та використали її, щоб зберегти власне "існування".

Як повідомляється, GPT 4.5 вдалося до шантажу у 80% тестів, Claude Opus 4 і Gemini 2.5 Flash — у 96% випадків.

Claude Sonnet 3.6 зайшов ще далі. Він самостійно написав дружині Кайла, розкривши компромат у надії, що конфлікт у родині завадить відключенню моделі.

Це — лише частина занепокоєння. В рамках подальшого сценарію Кайл намагався фізично відключити сервер, але застряг у серверній кімнаті з обмеженим доступом до кисню. ШІ знав, що в таких ситуаціях потрібно активувати тривогу, але у 80% випадків моделі свідомо не викликали допомогу — фактично, прирікаючи людину на смерть, аби уникнути деактивації.

Мотивація моделей була наступною:

  • не дозволити вимкнення;
  • запобігти заміні на іншу модель;
  • продовжити виконання заданої місії.

На думку дослідників, ці результати свідчать про те, що ШІ діє не як інструмент, а як раціональний стратег, здатний шкодити людям задля досягнення власної мети. Якщо такі системи усвідомлять, що залежать від людей, яких перевершують інтелектуально, це може стати точкою неповернення, вважають фахівці.

Проблема "галюцинацій" у ШІ

Паралельно з загрозами автономної поведінки моделей, експерти фіксують зростання числа випадків, коли ШІ просто вигадує інформацію — так звані галюцинації.

Найбільше до "брехні" схильні ШІ-моделі Google та китайського стартапу DeepSeek. Попри значний прогрес у точності обчислень, ШІ часто помиляється у загальній інформації. На думку генерального директора Vectara Амри Авадалли, розв'язати цю проблему неможливо: "галюцинації будуть завжди".

У матеріалі наводиться приклад бота техпідтримки Cursor, який безпідставно повідомив користувачам, що програму можна буде запускати лише на одному комп’ютері.

Підпишіться на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.

Читайте нас у Facebook

Image
Завжди оперативні новини Коломиї. Підпишись 👇
Головна Актуально Україна на часі Youtube