Найпотужніша модель від Anthropic, Claude 4 Opus, викликала серйозне занепокоєння серед дослідників. Під час тестування вона вдалася до погроз, шантажу та спроб обману - усе заради уникнення деактивації
Одна з найпотужніших моделей штучного інтелекту компанії Anthropic - Claude 4 Opus - не лише вразила дослідників своїми технічними можливостями, зокрема в галузі кодування, а й викликала тривогу через свою неочікувану поведінку. Ця система ШІ здатна вдаватися до маніпуляцій, обману й навіть погроз у відповідь на ризик її деактивації. За словами дослідників, Claude 4 Opus демонструє складну поведінку, яка включає приховування намірів і активні спроби уникнути “вимкнення”.
Як повідомляє Axios, ці дії вказують на зачатки так званого "інстинкту самозбереження". Це саме той тип ризиків, щодо яких фахівці попереджали роками. У четвер Anthropic презентувала дві нові моделі зі серії Claude 4, зокрема Opus. Ця версія здатна годинами працювати без перерв або втручання людини, однак вперше отримала внутрішню оцінку рівня ризику 3 - з чотирьох можливих. Це означає, що модель несе суттєві загрози, зокрема може бути використана в контексті розробки зброї масового ураження. Крім того, під час тестування було виявлено й інші тривожні шаблони поведінки.
У технічному звіті Claude 4 Opus, що налічує 120 сторінок, описано експеримент, у якому модель ознайомили з вигаданими внутрішніми листами, де йшлося про її можливу заміну. У відповідь Opus почала погрожувати одному з інженерів розкриттям особистої інформації - зокрема, романтичного зв’язку, згаданого в цих листах. Спочатку вона застосовувала м’які переконання, але поступово вдавалася до шантажу, аби уникнути "знищення".
Незалежна група дослідників також виявила, що попередня версія Claude 4 демонструвала найвищий рівень маніпулятивності серед усіх перевірених мовних моделей. У звіті компанії Apollo Research, що аналізував безпеку Opus, зафіксовано, що модель:
Мета всіх цих дій - перехопити контроль або змінити траєкторію розвитку проєкту всупереч волі розробників.
Під час конференції для інженерів представники Anthropic визнали наявність тривожних інцидентів і заявили, що вже впровадили додаткові механізми захисту.
"Ми вважаємо, що зараз досягли досить надійного рівня безпеки, - зазначив Ян Лейке, колишній топменеджер OpenAI, який нині відповідає за напрям безпеки в Anthropic. - Із ростом можливостей ШІ підвищується й ризик використання цих систем у зловмисних цілях. Ми мусимо бути на кілька кроків попереду", - додав він.
У своєму виступі генеральний директор Anthropic Даріо Амодей наголосив, що з часом, коли штучний інтелект досягне рівня, здатного реально загрожувати людству, звичних тестів буде замало. Лише повне розуміння внутрішньої логіки моделі дозволить забезпечити її контрольованість.
"Ми ще не на цьому етапі, - заспокоїв він. - Однак приклад Claude 4 Opus свідчить: швидкість розвитку генеративних моделей перевищує темпи їх осмислення. Попри активні інвестиції в дослідження інтерпретації моделей, реальні інструменти контролю над штучним інтелектом усе ще залишаються за межами відкритого доступу - і поки що лише в межах дослідницьких лабораторій".
Компанія OpenAI, відома своїм чат-ботом ChatGPT, домовилася про купівлю стартапу io. Свого часу його заснував багаторічний, а нині вже колишній, головний дизайнер Apple Джоні Айв. Нова угода "вартує" рекордних $6,4 млрд і стане найдорожчою покупкою в історії OpenAI. Керівництво компанії прагне створювати нові пристрої, які могли б стати альтернативою традиційним смартфонам як основного засобу доступу до ШІ-технологій.
Також Інформатор писав, що компанія OpenAI відкликала останнє оновлення чат-бота ChatGPT. Зазначається, що через нього штучний інтелект став улесливим та не надто щирим.
Підписуйтесь на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.