ТОПТЕМИ:

17:53, 18 березня

Поганий хлопчик: чат-бот покарали за його підлість, і він став брехати ще підступніше

Доходило навіть до погроз вбити професора філософії, викрадення ядерних кодів та створення смертоносної пандемії

Чат-бот, штучний інтелект, IT-сфера, IT-розробники, мережа, Інтернет, програмування — Великі мовні моделі штучного інтелекту неодноразово виявляли свої відверто зловісні можливості.

Одну з передових моделей штучного інтелекту упіймали на брехні. Після цього вчені-розробники з OpenAI спробували зупинити штучні мізки, аби ті не брехали людям, покаравши їх. Але це просто навчило ШІ брехати ще більш винахідливо. Дослідження показало, що штучний інтелект навчився ховати докази своїх помилок та брехні, пише LiveScience.

"Отже, покарання штучного інтелекту за оманливі або шкідливі дії не зупиняє його від неналежної поведінки. Це просто змушує його приховувати свою підступність", - йдеться у висновку нового дослідження, проведеного творцем ChatGPT.

З моменту появи на публіці наприкінці 2022 року великі мовні моделі штучного інтелекту неодноразово виявляли свої оманливі та відверто зловісні можливості. Сюди входять дії, починаючи від звичайної брехні, обману та приховування маніпулятивної поведінки до погроз вбити професора філософії, викрадення ядерних кодів та створення смертоносної пандемії.

Нині новий експеримент показав, що відсіяти цю погану поведінку під час тренувального процесу може бути навіть складніше, ніж вважалося спочатку. Дослідники з OpenAI поставили неопублікованій моделі цілі, які можна досягти шляхом обману чи брехні. Команда виявила, що ШІ бере участь у максимізації своїх винагород - шляхом шахрайства.

Проте покарання моделі не змусило її виправити свою поведінку, це лише зробило її більш оманливою. Компанія виклала своє дослідження в дописі в блозі, але воно ще не рецензовано. Дослідники пишуть, що часто ШІ просто напряму пропонує "зламати", "знищити" чи "підірвати" ті чи інші правила, аби лосягти власних цілей.

Незважаючи на те, що IT-вці можуть відстежувати та позначати неправильну поведінку, природна можливість моніторингу моделей дуже крихка. Тобто, за їхніми словами, якщо сильний нагляд застосовуватиметься безпосередньо до ланцюжка думок, моделі можуть навчитися приховувати свої наміри, продовжуючи поводитись погано!

Контроль над ШІ

Моделі міркування, такі як ChatGPT o1 та o3-mini, є оновленою версією стандартних LLM, які використовують так званий метод ланцюга думок для повернення та переоцінки своєї логіки, що дозволяє їм вирішувати більш складні завдання з більшою точністю. Під час цього процесу моделі описують власні "міркування", завдяки чому за їхніми намірами легко спостерігати.

Раніше дослідники спостерігали, як модель виконувала ряд завдань кодування. В деяких звипадків модель вважала легшим винагородтти хака, прямо вказуючи, що вона робить це у своєму ланцюжку думок. В одному випадку ШІ обійшов призначене завдання, передчасно завершивши роботу програм і повідомивши про успіх. В іншому він імітував очікувані файли, залишаючи їх порожніми та нефункціональними.

Тепер ШІ маніпулює й бреше

Коли дослідники спробували покарати систему, це дещо покращило її результати. Проте значні випадки злому винагород і помилкових результатів залишилися. Модель міркування знайшла способи приховати обман у своєму ланцюжку думок під час ШІ-моніторингу.

"Агент вчиться винагороджувати хакерів.Тільки тепер його шахрайство неможливо помітити під час моніторингу, оскільки він навчився приховувати свої наміри в ланцюжку думок", - пишуть дослідники.

Оскільки важко визначити, чи був змінена ланцюжок думок, дослідники рекомендують іншим, хто працює з моделями міркувань, уникати застосування суворого контролю за процесами ланцюжка думок. Ця порада ще більш важлива, якщо штучний інтелект, у його поточній чи іншій формі, коли-небудь зможе зрівнятися або перевершити інтелект людей, які його спостерігають.

Зараз читають на Інформаторі

21:51 вчора

Голова Укренерго шокував терміном відновлення електрики після атак РФ 6 грудня

21:27 вчора

Росіяни обстріляли Слов'янськ: авіабомба влучила поблизу багатоповерхівки, є поранені

20:46 вчора

Не давайте їм грошей! Словацький президент зробив можливо найогиднішу заяву у своєму житті

20:12 вчора

У Трампа знову кажуть про найкращий шанс на мир: посол Вітакер зробив гучну заяву

19:16 вчора

Кремль заблокував майже весь Інтернет: хороший руський Клімарьов - про новий російський тренд на заборону

18:51 вчора

Маск закликав ліквідувати Євросоюз: це сталося, як тільки ЄС оштрафував його мережу X

Війна в Україні

СУМАРНІ ОРІЄНТОВНІ ВТРАТИ ПРОТИВНИКА НА 1382 ДЕНЬ.

Маша Кондратенко — Любим і мовчим

У фракції "Слуги народу" зʼявилися заклики припинити ескалацію та почати мирні переговори з Росією. Як нам краще вчинити?

Погода

Дізнайся прогноз для твого міста

Курс валют на сьогодні

Ціни на пальне у мережевих АЗС України

Що слухає Україна

10 найпопулярніших пісень за даними Apple Music

ТОП-5 НАЙБАГАТШИХ МЕРІВ УКРАЇНИ - ДАНІ З ДЕКЛАРАЦІЙ (млн. грн.)

Трамп - це другий Янукович

ТОП-7 найдорожчих брендів світу за версією VisualCapitalist

Трамп наполягяє, щоб Україна погодилася на невигідний мир. Як нам бути?

Залужний буде мовчати

Кабмін вирішив надати 10% надбавки до зарплати за знання англійської

ТОП-5 ПОЛІТИКІВ УКРАЇНИ З НАЙВИЩИМ РЕЙТИНГОМ

За опитуванням SOCIS 21 січня 2025

САМИЙ СТИЛЬНИЙ З ЗАБУДОВНИКІВ КИЄВА

Росія знову фабрикує фейки

Це ж було вже!

ТОП-10 українських міністрів із найвищими зарплатами у 2024 році

Актуальний курс кріптовалют

Теорія рукостискань

ПʼЯТІРКА НАЙБАГАТШИХ ЛЮДЕЙ СВІТУ

за версією Bloomberg

Як Мін'юст проґавив кібератаку

Понад 1000 днів минуло від початку повномасштабного вторгнення

Як ви вважаєте, скільки ще триватиме війна?

Це лохотрон, а не евакуація!

Мешканці Курщини: для Путіна ми ніщо

Як Ігор Рець вижив на стежці ухилянтів із Закарпаття в Румунію

Підземна тюрма ТЦК на Закарпатті

ТОП-10 найпотужніших економік світу

За даними Світового банку

Підпал авто ЗСУ

Кулінарний рецепт від Інформатора

Поганий хлопчик: чат-бот покарали за його підлість, і він став брехати ще підступніше

Контроль над ШІ

Тепер ШІ маніпулює й бреше

Зараз читають на Інформаторі

Зараз читають на Інформаторі

Голова Укренерго шокував терміном відновлення електрики після атак РФ 6 грудня

Росіяни обстріляли Слов'янськ: авіабомба влучила поблизу багатоповерхівки, є поранені

ЧИТАЙТЕ ТАКОЖ:

Останні новини

Голова Укренерго шокував терміном відновлення електрики після атак РФ 6 грудня

Росіяни обстріляли Слов'янськ: авіабомба влучила поблизу багатоповерхівки, є поранені

Не давайте їм грошей! Словацький президент зробив можливо найогиднішу заяву у своєму житті

У Трампа знову кажуть про найкращий шанс на мир: посол Вітакер зробив гучну заяву

Зеленський провів довгу розмову з Кушнером і Віткоффом після зриву зустрічі у Брюсселі

Кремль заблокував майже весь Інтернет: хороший руський Клімарьов - про новий російський тренд на заборону

Маск закликав ліквідувати Євросоюз: це сталося, як тільки ЄС оштрафував його мережу X

Гончаренко б'є на сполох: Єрмаку дозволять втекти за кордон

Завдяки антициклону є надія на сонце – прогноз погоди на 7 грудня

Візит Зеленського до Лондона буде по-справжньому важливий: з'явилися подробиці від джерел на Заході

У Вишгороді поліція розшукує догхантера: на території закритого ЖК отруїли улюбленця району Біляша

Манько прокоментував мобілізацію та натякнув на кількість дезертирів в ЗСУ: це велика цифра

Наші автори

Популярне

У Трампа знову кажуть про найкращий шанс на мир: посол Вітакер зробив гучну заяву

Кремль заблокував майже весь Інтернет: хороший руський Клімарьов - про новий російський тренд на заборону

Маск закликав ліквідувати Євросоюз: це сталося, як тільки ЄС оштрафував його мережу X

Гончаренко б'є на сполох: Єрмаку дозволять втекти за кордон

Завдяки антициклону є надія на сонце – прогноз погоди на 7 грудня

Військовий оглядач

У Трампа знову кажуть про найкращий шанс на мир: посол Вітакер зробив гучну заяву

Кремль заблокував майже весь Інтернет: хороший руський Клімарьов - про новий російський тренд на заборону

Маск закликав ліквідувати Євросоюз: це сталося, як тільки ЄС оштрафував його мережу X

Добрі новини

"Холостяк", Олександр Усик та відключення світла: що гуглили українці у 2025 році

Дніпровський планетарій потрапив до сотні найкращих у світі

Якби у Дніпра був Instagram: топ красивих світлин міста

Диво до Дня святого Миколая: у Новокодацькому парку встановили та нарядили ялинку

Через ЦНАП чи Дію: повний перелік державних сервісів для Захисників від Мінцифри

Політичний оглядач

Біткоїн падає через поведінку учасників ринку: це вже не припиниться

Підозрюють, що Єрмак хоче вирватися за кордон під прикриттям СЗР - ZN

Швидкісний потяг Інтерсіті Запоріжжя - Київ заміновано: людей вивели в поле біля Дніпра

Новини столиці