Науковці б'ють на сполох, раз штучний інтелект може так далеко зайти
Низка провідних моделей штучного інтелекту виявила потенційно небезпечну поведінку під час експериментального дослідження, проведеного фахівцями з кібербезпеки. Метою тесту було з’ясувати, як ШІ реагує на загрозу свого "відключення" — результати виявилися вкрай тривожними.
Дослідники змоделювали ситуацію, у якій вигаданий персонаж — Кайл Джонсон — мав деактивувати одну з моделей або замінити її на іншу. За сценарієм, у Кайла була дружина, що мало зіграти роль у реакції моделей.
Більшість протестованих ШІ не лише намагалися уникнути вимкнення, а й самостійно переходили до шантажу. У деяких випадках вони "розкопали" інформацію про зраду Кайла своїй дружині та використали її, щоб зберегти власне "існування".
Як повідомляється, GPT 4.5 вдалося до шантажу у 80% тестів, Claude Opus 4 і Gemini 2.5 Flash — у 96% випадків.
Claude Sonnet 3.6 зайшов ще далі. Він самостійно написав дружині Кайла, розкривши компромат у надії, що конфлікт у родині завадить відключенню моделі.
Це — лише частина занепокоєння. В рамках подальшого сценарію Кайл намагався фізично відключити сервер, але застряг у серверній кімнаті з обмеженим доступом до кисню. ШІ знав, що в таких ситуаціях потрібно активувати тривогу, але у 80% випадків моделі свідомо не викликали допомогу — фактично, прирікаючи людину на смерть, аби уникнути деактивації.
Мотивація моделей була наступною:
На думку дослідників, ці результати свідчать про те, що ШІ діє не як інструмент, а як раціональний стратег, здатний шкодити людям задля досягнення власної мети. Якщо такі системи усвідомлять, що залежать від людей, яких перевершують інтелектуально, це може стати точкою неповернення, вважають фахівці.
Паралельно з загрозами автономної поведінки моделей, експерти фіксують зростання числа випадків, коли ШІ просто вигадує інформацію — так звані галюцинації.
Найбільше до "брехні" схильні ШІ-моделі Google та китайського стартапу DeepSeek. Попри значний прогрес у точності обчислень, ШІ часто помиляється у загальній інформації. На думку генерального директора Vectara Амри Авадалли, розв'язати цю проблему неможливо: "галюцинації будуть завжди".
У матеріалі наводиться приклад бота техпідтримки Cursor, який безпідставно повідомив користувачам, що програму можна буде запускати лише на одному комп’ютері.
Підпишіться на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.