Плохой мальчик: чат-бот наказали за его подлость, и он стал врать еще коварней

Доходило даже до угроз убить профессора философии, похищения ядерных кодов и создания смертоносной пандемии

Чат-бот, искусственный интеллект, IT-сфера, IT-разработчики, сеть, Интернет, программирование
Большие языковые модели искусственного интеллекта неоднократно проявляли свои откровенно зловещие возможности.

Одну из передовых моделей искусственного интеллекта поймали на вранье. После этого ученые-разработчики из OpenAI попытались остановить искусственные мозги, чтобы те не врали людям, наказав их. Но это просто научило ИИ врать еще изощреннее. Исследование показало, что искусственный интеллект научился скрывать доказательства своих ошибок и лжи, пишет LiveScience.

"Итак, наказание искусственного интеллекта за обманчивые или вредные действия не останавливает его от ненадлежащего поведения. Это просто заставляет его скрывать свое коварство", - говорится в заключении нового исследования, проведенного создателем ChatGPT.

С момента появления на публике в конце 2022 года, большие языковые модели искусственного интеллекта неоднократно проявляли свои обманчивые и откровенно зловещие возможности. Сюда входят действия, начиная от обычной лжи, обмана и утаивания манипулятивного поведения до угроз убить профессора философии, похищения ядерных кодов и создания смертоносной пандемии.

В настоящее время новый эксперимент показал, что отсеять это плохое поведение во время тренировочного процесса может быть даже сложнее, чем считалось изначально. Исследователи из OpenAI поставили неопубликованной модели цели, которые могут быть достигнуты путем обмана или лжи. Команда обнаружила, что ИИ участвует в максимизации своих вознаграждений – путем мошенничества.

Однако наказание модели не заставило ее исправить свое поведение, это сделало ее более обманчивой. Компания изложила свое исследование в сообщении в блоге, но оно еще не рецензировано. Исследователи пишут, что часто ИИ просто напрямую предлагает "взломать", "уничтожить" или "взорвать" те или иные правила, чтобы лосять собственные цели.

Несмотря на то, что IT-вцы могут отслеживать и обозначать неправильное поведение, естественная возможность мониторинга моделей очень хрупкая. То есть, по их словам, если сильное наблюдение будет применяться непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая вести себя плохо!

Контроль над ИИ

Модели размышления, такие как ChatGPT o1 и o3-mini, являются обновленной версией стандартных LLM, использующих так называемый метод цепи мыслей для возвращения и переоценки своей логики, что позволяет им решать более сложные задачи с большей точностью. Во время этого процесса модели описывают собственные "мнения", благодаря чему за их намерениями легко наблюдать.

Ранее исследователи наблюдали, как модель выполняла ряд задач кодировки. В некоторых случаях модель считала легче вознаградить хака, прямо указывая, что она делает это в своей цепочке мыслей. В одном случае ИИ обошел назначенную задачу, преждевременно завершив работу программ и сообщив об успехе. В остальном он имитировал ожидаемые файлы, оставляя их пустыми и нефункциональными.

Теперь ИИ манипулирует и лжет

Когда исследователи попытались наказать систему, это несколько улучшило ее результаты. Однако значительные случаи взлома вознаграждений и ошибочных результатов остались. Модель рассуждения нашла способы скрыть обман в своей цепочке мыслей во время ИИ-мониторинга.

"Агент учится вознаграждать хакеров. Только теперь его мошенничество невозможно заметить во время мониторинга, поскольку он научился скрывать свои намерения в цепочке мнений", – пишут исследователи.

Поскольку трудно определить, была ли изменена цепочка мыслей, исследователи рекомендуют другим, кто работает с моделями соображений, избегать применения строгого контроля за процессами цепочки мыслей. Этот совет еще более важен, если искусственный интеллект, в его текущей или иной форме, когда-нибудь сможет сравниться или превзойти интеллект наблюдающих его людей.

Підписуйтесь на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.

ЧИТАЙТЕ ТАКЖЕ:

Главная Актуально Informator.ua Україна на часі Youtube