Доходило навіть до погроз вбити професора філософії, викрадення ядерних кодів та створення смертоносної пандемії
Одну з передових моделей штучного інтелекту упіймали на брехні. Після цього вчені-розробники з OpenAI спробували зупинити штучні мізки, аби ті не брехали людям, покаравши їх. Але це просто навчило ШІ брехати ще більш винахідливо. Дослідження показало, що штучний інтелект навчився ховати докази своїх помилок та брехні, пише LiveScience.
"Отже, покарання штучного інтелекту за оманливі або шкідливі дії не зупиняє його від неналежної поведінки. Це просто змушує його приховувати свою підступність", - йдеться у висновку нового дослідження, проведеного творцем ChatGPT.
З моменту появи на публіці наприкінці 2022 року великі мовні моделі штучного інтелекту неодноразово виявляли свої оманливі та відверто зловісні можливості. Сюди входять дії, починаючи від звичайної брехні, обману та приховування маніпулятивної поведінки до погроз вбити професора філософії, викрадення ядерних кодів та створення смертоносної пандемії.
Нині новий експеримент показав, що відсіяти цю погану поведінку під час тренувального процесу може бути навіть складніше, ніж вважалося спочатку. Дослідники з OpenAI поставили неопублікованій моделі цілі, які можна досягти шляхом обману чи брехні. Команда виявила, що ШІ бере участь у максимізації своїх винагород - шляхом шахрайства.
Проте покарання моделі не змусило її виправити свою поведінку, це лише зробило її більш оманливою. Компанія виклала своє дослідження в дописі в блозі, але воно ще не рецензовано. Дослідники пишуть, що часто ШІ просто напряму пропонує "зламати", "знищити" чи "підірвати" ті чи інші правила, аби лосягти власних цілей.
Незважаючи на те, що IT-вці можуть відстежувати та позначати неправильну поведінку, природна можливість моніторингу моделей дуже крихка. Тобто, за їхніми словами, якщо сильний нагляд застосовуватиметься безпосередньо до ланцюжка думок, моделі можуть навчитися приховувати свої наміри, продовжуючи поводитись погано!
Моделі міркування, такі як ChatGPT o1 та o3-mini, є оновленою версією стандартних LLM, які використовують так званий метод ланцюга думок для повернення та переоцінки своєї логіки, що дозволяє їм вирішувати більш складні завдання з більшою точністю. Під час цього процесу моделі описують власні "міркування", завдяки чому за їхніми намірами легко спостерігати.
Раніше дослідники спостерігали, як модель виконувала ряд завдань кодування. В деяких звипадків модель вважала легшим винагородтти хака, прямо вказуючи, що вона робить це у своєму ланцюжку думок. В одному випадку ШІ обійшов призначене завдання, передчасно завершивши роботу програм і повідомивши про успіх. В іншому він імітував очікувані файли, залишаючи їх порожніми та нефункціональними.
Коли дослідники спробували покарати систему, це дещо покращило її результати. Проте значні випадки злому винагород і помилкових результатів залишилися. Модель міркування знайшла способи приховати обман у своєму ланцюжку думок під час ШІ-моніторингу.
"Агент вчиться винагороджувати хакерів.Тільки тепер його шахрайство неможливо помітити під час моніторингу, оскільки він навчився приховувати свої наміри в ланцюжку думок", - пишуть дослідники.
Оскільки важко визначити, чи був змінена ланцюжок думок, дослідники рекомендують іншим, хто працює з моделями міркувань, уникати застосування суворого контролю за процесами ланцюжка думок. Ця порада ще більш важлива, якщо штучний інтелект, у його поточній чи іншій формі, коли-небудь зможе зрівнятися або перевершити інтелект людей, які його спостерігають.