ТОПТЕМЫ:

17:53, 18 марта

Плохой мальчик: чат-бот наказали за его подлость, и он стал врать еще коварней

Доходило даже до угроз убить профессора философии, похищения ядерных кодов и создания смертоносной пандемии

Чат-бот, искусственный интеллект, IT-сфера, IT-разработчики, сеть, Интернет, программирование — Большие языковые модели искусственного интеллекта неоднократно проявляли свои откровенно зловещие возможности.

Одну из передовых моделей искусственного интеллекта поймали на вранье. После этого ученые-разработчики из OpenAI попытались остановить искусственные мозги, чтобы те не врали людям, наказав их. Но это просто научило ИИ врать еще изощреннее. Исследование показало, что искусственный интеллект научился скрывать доказательства своих ошибок и лжи, пишет LiveScience.

"Итак, наказание искусственного интеллекта за обманчивые или вредные действия не останавливает его от ненадлежащего поведения. Это просто заставляет его скрывать свое коварство", - говорится в заключении нового исследования, проведенного создателем ChatGPT.

С момента появления на публике в конце 2022 года, большие языковые модели искусственного интеллекта неоднократно проявляли свои обманчивые и откровенно зловещие возможности. Сюда входят действия, начиная от обычной лжи, обмана и утаивания манипулятивного поведения до угроз убить профессора философии, похищения ядерных кодов и создания смертоносной пандемии.

В настоящее время новый эксперимент показал, что отсеять это плохое поведение во время тренировочного процесса может быть даже сложнее, чем считалось изначально. Исследователи из OpenAI поставили неопубликованной модели цели, которые могут быть достигнуты путем обмана или лжи. Команда обнаружила, что ИИ участвует в максимизации своих вознаграждений – путем мошенничества.

Однако наказание модели не заставило ее исправить свое поведение, это сделало ее более обманчивой. Компания изложила свое исследование в сообщении в блоге, но оно еще не рецензировано. Исследователи пишут, что часто ИИ просто напрямую предлагает "взломать", "уничтожить" или "взорвать" те или иные правила, чтобы лосять собственные цели.

Несмотря на то, что IT-вцы могут отслеживать и обозначать неправильное поведение, естественная возможность мониторинга моделей очень хрупкая. То есть, по их словам, если сильное наблюдение будет применяться непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая вести себя плохо!

Контроль над ИИ

Модели размышления, такие как ChatGPT o1 и o3-mini, являются обновленной версией стандартных LLM, использующих так называемый метод цепи мыслей для возвращения и переоценки своей логики, что позволяет им решать более сложные задачи с большей точностью. Во время этого процесса модели описывают собственные "мнения", благодаря чему за их намерениями легко наблюдать.

Ранее исследователи наблюдали, как модель выполняла ряд задач кодировки. В некоторых случаях модель считала легче вознаградить хака, прямо указывая, что она делает это в своей цепочке мыслей. В одном случае ИИ обошел назначенную задачу, преждевременно завершив работу программ и сообщив об успехе. В остальном он имитировал ожидаемые файлы, оставляя их пустыми и нефункциональными.

Теперь ИИ манипулирует и лжет

Когда исследователи попытались наказать систему, это несколько улучшило ее результаты. Однако значительные случаи взлома вознаграждений и ошибочных результатов остались. Модель рассуждения нашла способы скрыть обман в своей цепочке мыслей во время ИИ-мониторинга.

"Агент учится вознаграждать хакеров. Только теперь его мошенничество невозможно заметить во время мониторинга, поскольку он научился скрывать свои намерения в цепочке мнений", – пишут исследователи.

Поскольку трудно определить, была ли изменена цепочка мыслей, исследователи рекомендуют другим, кто работает с моделями соображений, избегать применения строгого контроля за процессами цепочки мыслей. Этот совет еще более важен, если искусственный интеллект, в его текущей или иной форме, когда-нибудь сможет сравниться или превзойти интеллект наблюдающих его людей.

Сейчас читают на Информаторе

23:09 вчера

Россияне ударили дронами по Сумам: попали в многоэтажку и уничтожили маршрутку, есть жертвы

22:30 вчера

Украина готова воевать еще 2-3 года: Гончаренко эмоционально прокомментировал заявление Зеленского

21:11 вчера

Лавров выдал циничное заявление, что РФ не нарушала Будапештский меморандум

19:56 вчера

В Кривом Роге массово исчез свет: на этот раз дело не в войне

16:57 вчера

Спецпредставитель Кремля Дмитриев привез в США конфеты с цитатами Путина: там даже есть угрозы

16:13 вчера

Терпеть осталось недолго, скоро потепление – прогноз погоды на 27 октября

Война в Украине

СУМАРНІ ОРІЄНТОВНІ ВТРАТИ ПРОТИВНИКА НА 1341 ДЕНЬ.

Wellboy - Ведмедиця

Во фракции "Слуга народа" раздаются призывы остановить эскалацию и начать мирные переговоры с Россией. Как нам лучше поступить?

Погода

Узнай прогноз для твоего города

Курс валют на сегодня

Цены на топливо в сетевых АЗС Украины

Что слушает Украина

10 самых популярных песен по версии Apple Music

ТОП-5 САМЫХ БОГАТЫХ МЭРОВ - ДАННЫЕ ИЗ ДЕКЛАРАЦИЙ (млн. грн.)

Трамп - это второй Янукович

ТОП-7 самых дорогих брендов мира по версии VisualCapitalist

Трамп требует, чтобы Украина согласилась на невыгодный мир. Как нам быть?

Залужный будет молчать

Кабмин решил дать 10% надбавки к зарплате за знание английского

ТОП-5 ПОЛИТИКОВ УКРАИНЫ С НАИВЫСШИМ РЕЙТИНГМ

По опросу SOCIS 21 января 2025 года

САМЫЙ СТИЛЬНЫЙ ИЗ ЗАСТРОЙЩИКОВ КИЕВА

Россия снова фабрикует фейки

Це ж було вже!

ТОП-10 украинских министров с самыми большими зарплатами в 2024 году

Актуальный курс криптовалют

Теория рукопожатий

ПЯТЕРКА САМЫХ БОГАТЫХ В МИРЕ

По версии Bloomberg

Как Минюст упустил кибератаку

Более 1000 дней прошло с начала полномасштабного вторжения

Как вы считаете, сколько еще будет продолжаться война?

Это лохотрон, а не эвакуация!

Жители Курской области: для Путина мы никто

Как Игорь Рец выжил на тропе ухилянтов из Закарпатья в Румынию

Подземная тюрьма ТЦК в Закарпатье

ТОП-10 самых мощных экономик мира

По данным Всемирного банка

Поджег авто ЗСУ

Кулинарный рецепт от Информатора

Плохой мальчик: чат-бот наказали за его подлость, и он стал врать еще коварней

Контроль над ИИ

Теперь ИИ манипулирует и лжет

Сейчас читают на Информаторе

Сейчас читают на Информаторе

Россияне ударили дронами по Сумам: попали в многоэтажку и уничтожили маршрутку, есть жертвы

Украина готова воевать еще 2-3 года: Гончаренко эмоционально прокомментировал заявление Зеленского

ЧИТАЙТЕ ТАКЖЕ:

Последние новости

Россияне ударили дронами по Сумам: попали в многоэтажку и уничтожили маршрутку, есть жертвы

Украина готова воевать еще 2-3 года: Гончаренко эмоционально прокомментировал заявление Зеленского

Зеленский опроверг заявление об окружении бойцов ВСУ возле Купянска и Покровска: это полная ложь

Лавров выдал циничное заявление, что РФ не нарушала Будапештский меморандум

Министр США назвал спецпредставителя РФ Дмитриева пропагандистом: зачем вы его слушаете

В Кривом Роге массово исчез свет: на этот раз дело не в войне

Россия захватила затонувшую Эстонию в Балтийском море: там создали тайный полигон

Минус десантный катер и три РЛС: ГУР в Крыму поколотили оккупантов

В Ираке произошел взрыв на нефтебазе: есть жертвы и пострадавшие

В Литве призвали закрыть границу с Беларусью и ограничить транзит в Калининград.

Семейных паркомест возле ТРЦ и маркет станет больше: теперь делать их обязывает закон

Спецпредставитель Кремля Дмитриев привез в США конфеты с цитатами Путина: там даже есть угрозы

Наши авторы

Популярные

В Кривом Роге массово исчез свет: на этот раз дело не в войне

Спецпредставитель Кремля Дмитриев привез в США конфеты с цитатами Путина: там даже есть угрозы

Терпеть осталось недолго, скоро потепление – прогноз погоды на 27 октября

Россия окружила Москву разными уровнями ПВО: в сеть слили карту расположения комплексов

Укрзализныци выделили 8 млрд грн из резервного фонда госбюджета для бесперебойной работы

Военный обозреватель

Умеров сообщил, что Украина получит дроны OCTOPUS: первые 1000 единиц изготовят в Британии

Гаррис намекнула на участие в предстоящей президентской гонке: на что она надеется

Санкции против РФ бьют по Кремлю сильнее, чем кажется - Сибига

Хорошие новости

300 экспонатов в смартфоне: в Днепре заработал виртуальный Музей истории города

Высажена лаванда, тематические локации в Хелловину и возобновление работы художественного музея: топ хороших новостей недели

Украина и США укрепляют связи: Днепропетровская область и Нью-Джерси заключили меморандум о взаимопонимании

Укрзализныци выделили 8 млрд грн из резервного фонда госбюджета для бесперебойной работы

Украинские ученики за границей могут принять участие во Всеукраинских ученических олимпиадах

Политический обозреватель

Министр США назвал спецпредставителя РФ Дмитриева пропагандистом: зачем вы его слушаете

В Кривом Роге массово исчез свет: на этот раз дело не в войне

Россия захватила затонувшую Эстонию в Балтийском море: там создали тайный полигон

Новости столицы