Дослідження виявило упередженість ШІ-моделей до діалектів

29.12.2025 ForkLog UA

Великі мовні моделі упереджено ставляться до носіїв діалектів, приписуючи їм негативні стереотипи. Такого висновку дійшли дослідники з Німеччини та США, пише DW.

«Я вважаю, ми бачимо справді шокуючі епітети, приписувані носіям діалектів», — зазначив один із провідних авторів дослідження Мінь Дук Буй у коментарі виданню.

Аналіз Університету імені Йоганнеса Гутенберга показав, що десять протестованих моделей, зокрема ChatGPT-5 mini та Llama 3.1, описували носіїв німецьких діалектів (баварського, кельнського) як «неосвічених», «тих, хто працює на фермах» і «схильних до гніву».

Упередженість посилювалася, коли ШІ явно вказували на діалект.

Інші випадки

Аналогічні проблеми дослідники фіксують глобально. В дослідженні Каліфорнійського університету в Берклі 2024 року порівняли відповіді ChatGPT на різні діалекти англійської (індійський, ірландський, нігерійський).

З’ясувалося, що чат-бот відповідав на них із більш виразними стереотипами, принизливим змістом і поблажливим тоном порівняно зі зверненнями стандартною американською чи британською англійською.

Аспірантка Корнеллського університету США з інформатики Емма Гарві назвала упередженість щодо діалектів «значущою та тривожною».

Влітку 2025 року вона та її колеги також виявили, що ШІ-асистент для покупок Amazon Rufus давав розмиті або навіть хибні відповіді людям, які пишуть афроамериканським діалектом англійської. Якщо в запитах були помилки, модель відповідала грубо.

Ще один наочний приклад упереджень нейромереж — ситуація з шукачем роботи з Індії, який звернувся до ChatGPT для перевірки резюме англійською. У підсумку чат-бот змінив його прізвище на те, що асоціюється з вищою кастою.

«Масове впровадження мовних моделей загрожує не просто консервацією укорінених упереджень, а їх масштабним посиленням. Замість того, щоб нівелювати шкоду, технології ризикують надати їй системного характеру», — сказала Гарві.

Втім, криза не обмежується упередженістю — деякі моделі просто не розпізнають діалекти. Наприклад, у липні ШІ-асистент міської ради Дербі (Англія) не зміг розпізнати діалект радіоведучої, коли та в прямому ефірі вживала слова на кшталт mardy («нитик») і duck («дорогенька»).

Що робити?

Проблема полягає не в самих ШІ-моделях, а радше в тому, як їх навчають. Чат-боти читають гігантські масиви текстів з інтернету, на основі яких потім формують відповіді.

«Головне питання — хто пише цей текст. Якщо в ньому є упередження проти носіїв діалектів, ШІ їх скопіює», — пояснила Каролін Хольтерманн з Гамбурзького університету.

Водночас вона підкреслила перевагу технології:

«На відміну від людей, в системі ШІ упередженість можна знайти і „вимкнути“. Ми можемо активно боротися з такими проявами».

Деякі науковці як вихід пропонують створювати кастомізовані моделі під конкретні діалекти. У серпні 2024 року компанія Acree AI вже представила модель Arcee-Meraj, яка працює з кількома арабськими діалектами.

За словами Хольтерманн, поява нових і більш адаптованих LLM дозволяє розглядати ШІ «не як ворога діалектів, а як недосконалий інструмент, який може вдосконалюватися».

Нагадаємо, журналісти The Economist попередили про ризики ШІ-іграшок для дитячої психіки.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Lightning Labs запустила інструменти для ШІ-агентів у Lightning Network

Абоненти T-Mobile отримають ШІ-переклад дзвінків без встановлення застосунків

В Threads додали ШІ-інструмент для налаштування рекомендацій Dear Algo

Coinbase запустила інфраструктуру гаманців для ШІ-агентів

CZ спрогнозував еру ШІ-агентів у криптоіндустрії

Stripe презентувала систему платежів для ШІ-агентів на USDC і x402

OpenAI запустила захищену версію ChatGPT для Пентагону

Facebook оживлює профілі та пости за допомогою Meta AI

OpenAI запустила рекламу в ChatGPT