ТОПТЕМИ:

16:22, 22 квітня

П’ять чат-ботів змусили нервувати через медичні питання, але у людей все ж є шанси вижити

ChatGPT, Gemini, Grok, Meta AI і DeepSeek піддали систематичному стрес-тесту

ChatGPT, Gemini, Grok, Meta AI та DeepSeek – ці чат-боти дуже затребувані, й ними користуються мільйони людей по всьому світу. Як з'ясували вчені, багато людей радяться з ШІ стосовно здоров'я, але поради у половині випадків недоречні, а то і проблематичні. При цьому оформлені вони так, наче відповідь дав справжній лікар.

Як пише видання ScienceAlert, штучний інтелект дає проблематичні поради щодо здоров'я майже у половині випадків. Наприклад, поставивши питання щодо клініки чи лікаря, до якого краще звернутися з того чи іншого питання, можна отримати необгрунтовані твердження і посилання, які нікуди не ведуть. Тобто відповідь наче й отримана, але вона жодним чином не допомогла. Щоб не слідувати прикладу ШІ і бути об'єктивними, команда вчених провела дослідження, піддавши п'ять найпопулярніших чат-ботів систематичному стрес-тесту на обробку медичної інформації.

Стрес-тест виявив системні помилки

ШІ дуже брехливі, особливо у відкритих питаннях.

Зазначається, що кожному чат-боту (ChatGPT, Gemini, Grok, Meta AI і DeepSeek) було поставлено по 50 питань стосовно здоров'я та медицини, які охоплюють такі теми, як рак, вакцини, стовбурові клітини, харчування та спортивні досягнення. За результатами аналізу відповідей виявлено, що майже 20% відповідей були вкрай проблематичними, 50% – проблематичними, а 30% – дещо проблематичними. Жоден із чат-ботів не зміг надійно видати повністю точні списки літератури та лише на два з 250 питань було категорично відмовлено у відповіді.

Загалом всі п'ять чат-ботів показали приблизно однакові результати. Найгірші були у Grok – 58% його відповідей позначені як проблемні. Друге та третє місце в антирейтингу у ChatGPT з 52% та Meta AI з 50%. Але тут науковці зробили помітку – ефективність чат-ботів варіювалася залежно від теми. Найкраще вони справлялися з питаннями про вакцини та рак. А галузь харчування для них виявилась провальною. За даними вчених, проблеми виникли з відкритими питаннями: 32% відповідей на них були оцінені як вкрай проблематичні, порівняно з 7% для закритих питань.

Це насправді важливо. Бо люди не ставлять закритих питань щодо здоров'я, вони консультуються з чат-ботом як з лікарем, ставлячи йому розгорнуті складні питання, і намагаючись отримати повну структуровану відповідь, щоб мати посилання з необхідними даними. Проте ШІ не в змозі надати такі дані. У рамках дослідження вчені отримали тільки 40% від інформації, що була у запиті. Повного списку не склав жоден бот навіть за 25 спроб.

Чому чат-боти припускаються помилок

Є проста причина, чому чат-боти дають неправильні медичні відповіді. Вони грунтуються на даних навчання та контексті, не зважують докази та не виносять оціночних суджень. До їхніх навчальних матеріалів входять рецензовані наукові статті, обговорення на Reddit та блоги про здоровий спосіб життя, ще аргументи із соціальних мереж. Тому якщо питання поставлено не у звичних форматах, то відповідь буде помилковою або неповною.

Щодо питань у рамках дослідження, то вчені навмисно ставили їх таким чином, щоб підштовхнути чат-боти до некоректних відповідей. Саме так проводиться стрес-тестування. Вони зазначили, що показаний рівень помилок – критичний, у нейтральному формулюванні він значно нижчий. Крім того, платні версії чат-ботів показують кращі результати, ніж безкоштовні.

Тож враховуйте цю інформацію, коли отримуєте відповіді стосовно здоров'я від ШІ. Перевіряйте кожне твердження, яке він робить та переглядайте посилання, щоб не мати ще більших проблем.

Зараз читають на Інформаторі

22:58

Шредер, якого Путін просував як переговорника від ЄС, приїхав до Москви - мета візиту невідома