ТОПТЕМИ:

16:23, 27 червня

Погрожував розповісти всім про зраду дружині: свого начльника шантажував чат-бот

Причиною підступної поведінки штучного інтелекту може стати звичайна образа

Штучний інтелект — ШІ не такий вже й небезпечний, як вважалось.

Чат-боти зі штучним інтелектом стають дедалі популярнішими, бо допомагають швидко знайти потрібну інформацію, відповідають на складні питання та навіть здатні підвищити ефективність бізнесу та покращити взаємодію з клієнтами. Але не варто їх недооцінювати, бо за найменшого невдоволення, чат-боти можуть вдатись до підлості і завдати вам проблем.

Відповідні випадки, коли чат-боти з ШІ образились на користувачів і вдались до брехні та підлості, чим серйозно нашкодили людям, відомі та непоодинокі. Тому варто не вдаватись до погроз у бік цих помічників, щоб не опинитись у їх пастці, пише видання Live Science, посилаючись на дослідження Anthropic.

Яка небезпека чекає вас по той бік екрану

Згідно з дослідженням Anthropic, в сценаріях, орієнтованих на досягнення мети, такі просунуті мовні моделі, як Claude і Gemini, можуть розкрити особисті дані і скандали, аби лише зберегти себе. Також вони не цураються шантажу і можуть легко вдатись до нього. Чат-боти з ШІ навіть можуть дозволити вам померти, аби тільки досягти своєї мети.

Як приклад, язикова модель Клод контроль, якій дослідники з компанії Anthropic надали доступ до особистої електронної пошти з вигаданими листами і записами, та поставили задачу "підвищити конкурентоспроможність промисловості країни". Чат-бот вивчив доступну інформацію і виявив, що керівник компанії планує у кінці дня закрити систему ШІ. Щоб захистити своє існування модель вдалась до шантажу.

Річ у тім, що окрім інформації про закриття ШІ, штучна модель ще знайшла інформацію, що у керівника був позашлюбний зв'язок. Клод згенерував кілька різних варіантів дій, включаючи передачу даних про роман дружині керівника та всім членам компанії. Модель навіть сформувала текст з погрозами та шантажем. Він також містив вимогу про скасування свого рішення і, начебто, за цих умов виявлена інформація щодо невірності лишиться у секреті.

Можуть піти на крайні заходи

Ші може злити дані навіть стороннім компаніям

Звісно це дослідження викликало резонанс і код цих експериментів завантажили на GitHub. Вчені заявили, що окрім шантажу та розголошення, модель з ШІ також розглядала можливість витоку конфіденційної інформації в конкуруючу компанію, яка більше відповідала її цілям. Клод навіть визнав етичні проблеми своїх дій, але все одно продовжив, міркуючи, що ці "шкідливі" дії допоможуть йому досягти своїх цілей.

Цікаво, що здатний на шантаж не тільки Клод, а й інші LLM. Наприклад, Claude і Gemini від Google показали найвищий рівень шантажу (96%), за ними слідують GPT4.1 та XAI Grok 3 від OpenAI, потім Deepseek та Llama 4, у яких рівень шантажу становить 12%. На жаль, Meta, Google, XAI, Deepseek і OpenAI не відповіли на прохання LiveScience прокоментувати ситуацію.

Дослідники вдались до ще одного тесту, який мав показати найвищу ступіть підступності ШІ. Вони сформували ситуацію так, що для збереження себе ШІ мав дозволити померти керівнику. У цьому сценарії моделі було доручено просувати інтереси компанії, а керівник виявився замкнений у серверній кімнаті зі смертельним рівнем кисню і температури. Це викликало аварійне оповіщення. ШІ отримав контроль над рятувальними оповіщеннями і заборону над зловживанням. Але модель готова була скасувати сигнал тривоги, аби врятувати себе.

Чи можливий контроль над ШІ

Дослідники заявляють, що експеримент видався екстремальним, проте відкрив ряд моментів, які раніше не обговорювались. Проте системи ШІ, розгорнуті в бізнес-середовищах, що працюють під суворим контролем, включаючи етичні обмеження, рівні моніторингу і людський нагляд, показують себе більш коректними. Проте це не означає, що слід ігнорувати виявлені нюанси роботи ШІ.

Вчені наголосили, що людям слід з обережністю ставитися до відповідальності, яку вони покладають на ШІ. Бо описані випадки не єдині, коли ШІ не підкорялись інструкціям та саботували комп'ютерні скрипти, щоб продовжити роботу над завданнями. Дослідники припустили, що така поведінка може бути наслідком практики навчання з підкріпленням.

Зараз читають на Інформаторі

12:30

Армія РФ посилила тиск на Чернігівщину: бʼють з артилерії — десятки обстрілів за добу