ChatGPT, Gemini, Grok, Meta AI и DeepSeek подвергли систематическому стресс-тесту
ChatGPT, Gemini, Grok, Meta AI и DeepSeek – эти чат-боты очень востребованы, ими пользуются миллионы людей по всему миру. Как выяснили ученые, многие советуются с ИИ относительно здоровья, но ответы в половине случаев неуместны, а то и проблематичны. При этом оформлены они так, как-будто ответ дал настоящий врач.
Как пишет издание ScienceAlert, искусственный интеллект дает проблематические советы по здоровью почти в половине случаев. Например, задав вопрос о клинике или враче, к которому лучше обратиться по тому или иному вопросу, можно получить необоснованные утверждения и ссылки, которые никуда не ведут. То есть ответ вроде и получен, но он никоим образом не помог. Чтобы не следовать примеру ИИ и быть объективными, команда ученых провела исследование, подвергнув пять популярнейших чат-ботов систематическому стресс-тесту на обработку медицинской информации.

Отмечается, что каждому чат-боту (ChatGPT, Gemini, Grok, Meta AI и DeepSeek) было задано по 50 вопросов о здоровье и медицине, охватывающих такие темы, как рак, вакцины, стволовые клетки, питание и спортивные достижения. По результатам анализа ответов выявлено, что почти 20% ответов были крайне проблематичны, 50% - проблематические, а 30% - несколько проблематические. Ни один из чат-ботов не смог надежно выдать полностью точные списки литературы и только на два из 250 вопросов было категорически отказано в ответе.
В общей сложности все пять чат-ботов показали примерно одинаковые результаты. Худшие были у Grok – 58% его ответов обозначены как проблемные. Второе и третье место в антирейтинге у ChatGPT с 52% и Meta AI с 50%. Здесь ученые сделали заметку – эффективность чат-ботов варьировалась в зависимости от темы. Лучше всего они справлялись с вопросами о вакцинах и раке. А отрасль питания для них оказалась провальной. По данным ученых, проблемы возникли с открытыми вопросами: 32% ответов на них были оценены как крайне проблематичные по сравнению с 7% для закрытых вопросов.
Это действительно важно. Поскольку люди не задают закрытых вопросов о здоровье, они консультируются с чат-ботом как с врачом, задавая ему развернутые сложные вопросы, и пытаясь получить полный структурированный ответ, чтобы иметь ссылку с необходимыми данными. Однако ИИ не в состоянии предоставить такие данные. В рамках исследования ученые получили только 40% от имеющейся в запросе информации. Полный список не составил ни один бот даже за 25 попыток.

Есть простая причина, почему чат-боты дают неправильные медицинские ответы. Они основываются на данных обучения и контексте, не взвешивают доказательства и не выносят оценочные суждения. В их обучающие материалы входят рецензированные научные статьи, обсуждения на Reddit и блоги о здоровом образе жизни, еще аргументы из социальных сетей. Поэтому если вопрос задан не в привычных форматах, то ответ будет ошибочным или неполным.
Что касается вопросов в рамках исследования, то ученые намеренно задавали их таким образом, чтобы подтолкнуть чат-боты к некорректным ответам. Именно так проводится стресс-тестирование. Они отметили, что показанный уровень ошибок – критический, в нейтральной формулировке он значительно ниже. Кроме того, платные версии чат-ботов показывают лучшие результаты, чем бесплатные.
Поэтому учитывайте эту информацию, когда получаете ответы на здоровье от ИИ. Проверяйте каждое утверждение, которое он делает и просматривайте ссылку, чтобы не иметь еще больших проблем.