Команда китайських учених провела масштабний аналіз впливу LLM на Вікіпедію за період з 2020 по 2025 роки
Великі мовні моделі (LLM) за останні роки досягли значного прогресу, навчившись генерувати тексти, подібні до людських. Це призвело до їх активної взаємодії з Вікіпедією, найбільшою онлайн-енциклопедією світу. Дослідники з Китаю вирішили вивчити, як штучний інтелект впливає на колективний розум тисяч добровольців. Вони виявили, що LLM, навчаючись на статтях Вікіпедії, починають впливати на її контент, що може призвести до "гомогенізації" знань та впровадження специфічних для ШІ упереджень.
Команда китайських учених провела масштабний аналіз впливу LLM на Вікіпедію за період з 2020 по 2025 роки, зосередившись на кількох ключових аспектах, йдеться у дослідженні Habr. Дослідники виявили низку змін у лексичному, лінгвістичному стилях та переглядах статтей.
Лексичні зміни. Частота використання деяких слів, таких як "crucial" та "additionally", помітно зросла. Ці терміни часто зустрічаються в текстах, написаних або відредагованих LLM. За оцінками, такий вплив становить від 1% до понад 2% в окремих категоріях. Зміни можуть сигналізувати про поступову трансформацію мови Вікіпедії під впливом ШІ. Приміром, якщо раніше статті писалися живою мовою з використанням розмовних зворотів, то тепер тексти стають більш формалізованими та структурованими.
Лінгвістичний стиль. Тексти, оброблені LLM, стали дещо менш зручними для читання за традиційними формулами, приміром, за індексом Флеша-Кінкейда. Також спостерігається зниження використання допоміжних дієслів — це характерна риса стилю, який віддають перевагу мовні моделі. Ці зміни не завжди помітні на перший погляд, але при уважному аналізі стає очевидним, що тексти, відредаговані ШІ, мають свій унікальний "підпис". приміром, вони рідше використовують конструкції з пасивним станом і частіше застосовують складні синтаксичні структури.
Вплив на перегляди сторінок. У другій половині 2024 року кількість переглядів у деяких наукових категоріях Вікіпедії дещо знизилася. Однак зв'язок цього явища з впливом LLM поки залишається невизначеним. Автори дослідження зазначають, що це може бути пов'язано зі зміною поведінки користувачів. Ймовірно, люди починають звертатися до альтернативних джерел інформації, якщо помічають, що стиль статей стає занадто формальним чи важким для сприйняття.
Дослідники також перевірили, як контент, створений або відредагований LLM, впливає на завдання машинного перекладу та системи генерації відповідей на основі пошуку (RAG). Приміром, якщо бенчмарки засновані на контенті Вікіпедії, обробленому LLM, то оцінки моделей перекладу можуть бути штучно завищені. Це створює ілюзію прогресу, хоча реальні обмеження технологій залишаються непоміченими.
Наприклад, якщо модель перекладу навчена на текстах, де часто використовується слово "crucial", вона може краще справлятися з перекладом таких термінів, але гірше працювати з більш розмовними або спеціалізованими виразами.
Також ефективність RAG систем знижується при роботі з контентом, відредагованим LLM. Причина — поява оманливих синтаксичних структур і втрата інформації. Якщо вихідний текст був переформульований ШІ, система може надати неточну або навіть помилкову відповідь. Це особливо критично для наукових і технічних тем, де точність має ключове значення.
Дослідження підкреслює, що навіть обмежений вплив LLM (близько 1-2%) може мати серйозні наслідки. Приміром, зниження надійності Вікіпедії як джерела знань може вплинути на освіту, наукові дослідження та повсякденне використання.
Утім, є й хороші новини. Приміром, LLM можуть допомогти у виявленні помилок, покращенні якості тексту та узагальненні інформації. Наприклад, якщо в статті є суперечливі дані, ШІ може запропонувати варіанти їх коригування. Також використання LLM може сприяти перекладу статей на нові мови та розширенню охоплення тематик. Це особливо важливо для мов з обмеженою кількістю редакторів.
Тим часом, Meta розпочинає розгортання свого штучного інтелекту Meta AI в Європі майже через рік після призупинення запуску в цьому регіоні. Починаючи з цього тижня, Meta AI стане доступним у WhatsApp, Facebook, Instagram та Messenger у 41 європейській країні та 21 заморській території. Однак поки що його функціонал обмежений лише текстовим спілкуванням.
Нещодавно учені створили розумного чат-бота, який є копією людини у майбутньому. Тобто, 20-річна людина може поговорити сама зі собою, скажімо, 60-річною. Розробники вважають, що такий експеримент може надихнути когось на мудрий життєвий вибір та уникнути деяких помилок.