Стенфорд: 35% нових вебсайтів створені ШІ

Станом на середину 2025 року близько 35% нових вебсайтів були створені повністю або частково за допомогою штучного інтелекту. Такого висновку дійшли дослідники Стенфордського університету.

До публічного запуску ChatGPT від OpenAI у листопаді 2022 року показник був майже нульовим. За кілька років частка ШІ-контенту зросла до понад третини нових публікацій в інтернеті.

Частка сайтів, повністю згенерованих ШІ (червоний), а також створених за допомогою нейромереж (фіолетовий). Джерело: GitHub.

Дослідники проаналізували 33 місяці архівних копій сайтів із Wayback Machine за допомогою детектора Pangram v3. Мета — з’ясувати, як зростання ШІ-текстів перебудовує структуру всесвітньої павутини.

Ключові зміни

Зафіксовано зниження семантичного різноманіття. Сторінки, згенеровані нейромережами, на 33% більш схожі між собою, ніж тексти, написані людьми. Різні сайти дедалі частіше переказують ті самі ідеї майже ідентичними фразами.

На думку авторів, справа не лише у масовому копірайтингу за допомогою ШІ. Проблема глибша: поступово звужується розмаїття формулювань і ідей. Великі мовні моделі (LLM) за своєю природою обирають най«усередненіші» відповіді та відтворюють шаблонний дискурс.

Змінився й емоційний тон публікацій. Контент, згенерований ШІ, виявився на 107% більш позитивним за людський. У Стенфорді пов’язали це з уже задокументованою схильністю LLM до підлабузництва.

У процесі навчання розробники оптимізують нейромережі на приємні, безпечні та соціально схвалювані відповіді. У підсумку значна частина нових сайтів формує «стерильно дружнє» інформаційне середовище. У ньому менше різких оцінок і конфліктів, але й менше живої людської полеміки.

Що не підтвердилося

Кілька популярних побоювань не знайшли статистичного підтвердження. Дослідники не виявили суттєвої кореляції між зростанням частки ШІ-контенту та падінням фактичної точності, збільшенням кількості явних помилок чи повним стилістичним вирівнюванням текстів до єдиного шаблону.

Зліва: кореляція між ШІ-контентом і гіпотезами. Праворуч: частка дорослих американців, які погоджуються з кожною гіпотезою. Джерело: GitHub.

Науковці окремо вказали на ефект, який досі обговорювався переважно теоретично, — модельний колапс (model collapse).

Якщо нові нейромережі навчати на даних з великою часткою ШІ-контенту, система починає споживати власні усереднені відповіді. Це зменшує варіативність, погіршує якість і загрожує тим, що надалі LLM вчитимуться не у людей, а в «синтетичного відлуння» попередниць.

Експерти разом з Internet Archive планують перетворити дослідження на систему постійного моніторингу частки ШІ-контенту в інтернеті.

Нагадаємо, у квітні Сем Альтман назвав п’ять принципів OpenAI для досягнення «загального ШІ-блага».

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version