Сеть поразила странная инструкция внутри ChatGPT, которую уже прозвали "антигоблинским" кодексом
Пользователи ChatGPT заметили удивительную особенность чат-бот начал часто и навязчиво вспоминать о гоблинах. Иногда искусственный интеллект даже выдает фото гоблинов, гремлинов, енотов, троллей, огров и им подобных в ответ на запрос. Поэтому компания OpenAI, в ответ на жалобы, ввела режим, названный "антигоблинским".
Как пишет издание IFLScience, система искусственного интеллекта перешла в "режим гоблина" после того, как ChatGPT был обновлен до версии 5.1. И упоминание об этих существах стало очень навязчивым. Но компания-разработчик быстро разгадала эту загадку и уже ввела определенный метод борьбы. Отмечается, что чрезмерное употребление слова "гоблин" тесно связано с "гиковым типом личности", разработанным для ChatGPT. Дело в том, что ранние версии системы созданы с функцией "настройки личности", позволяющей моделировать и принимать разные образы в зависимости от характера задачи.

Среди образов, заданных разработчиками ChatGPT, были такие, как "профессиональный", "циничный", "дружеский", "эффективный", "откровенный", "профессиональный" и "гиковый". В "ботаническом" стиле общения ИИ учили быть "скучным, игривым и мудрым" через определенные вознаграждения. И чем выше эта награда за ответ, тем чаще система поощряется повторять ее в будущем. За использование отсылок к гоблинам и метафор с этими существами в общении вознаграждение было очень высоким, поэтому они и стали почти вирусными в ChatGPT. А еще начали распространяться на другие части системы.
"Вознаграждения применялись только в состоянии "Тоска", но обучение из-за подкрепления не гарантирует, что усвоенные поведенческие навыки останутся строго привязанными к условиям, которые их породили. После того, как стилистическая особенность вознаграждается, дальнейшее обучение может распространить или усилить ее в других местах, особенно если эти результаты могут быть использованы для удовлетворения или усиливающегося результата, особенно если эти результаты повторно используются для контролируемой тонкой настройки или этих предпочтений", – отметили в OpenAI.
С запуском версии GPT-5.4 в марте этого года OpenAI убрали награды на использование слова "гоблин" и метафор с ним. Поэтому в лексиконе ChatGPT его стало гораздо меньше, но не настолько, чтобы сказать, что он исключен из использования помощником. Также для обеспечения защиты ввели команду: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх или других существах, если это не касается запроса пользователя". Некоторые пользователи восприняли это как просто рекламный трюк от OpenAI, но компания настаивает, что это не так.
Эксперты предполагают, что на самом деле вопросы с гоблинами могут свидетельствовать о более широких проблемах с языковыми моделями, такими как ChatGPT, Gemini от Google, Claude от Anthropic и подобными. Эти системы из-за своей конструкции могут тихо повторять странное, обманчивое, нравственно сомнительное или откровенно ложное поведение. И это, потенциально, может оказаться очень опасным.
"На этот раз это гоблины, а в следующий раз будет что-то другое, что, вероятно, не исчезнет. Нам повезет, если это будут гоблины, а не идеология белой расы, химическое оружие... или подстрекательство людей к самоубийству", - заявил профессор компьютерных наук Северо-Восточного университета.
Он добавил, что такие в искусственном интеллекте проблемы легко обнаружить и исправить, но иногда они остаются незамеченными, скрываясь в коде. С ростом гонки вооружений в сфере ИИ и усилением конкуренции в области вероятность того, что такие ошибки останутся незамеченными, растет.