Дослідження виявило упередженість ШІ-моделей до діалектів


Великі мовні моделі упереджено ставляться до носіїв діалектів, приписуючи їм негативні стереотипи. Такого висновку дійшли дослідники з Німеччини та США, пише DW.
«Я вважаю, ми бачимо справді шокуючі епітети, приписувані носіям діалектів», — зазначив один із провідних авторів дослідження Мінь Дук Буй у коментарі виданню.
Аналіз Університету імені Йоганнеса Гутенберга показав, що десять протестованих моделей, зокрема ChatGPT-5 mini та Llama 3.1, описували носіїв німецьких діалектів (баварського, кельнського) як «неосвічених», «тих, хто працює на фермах» і «схильних до гніву».
Упередженість посилювалася, коли ШІ явно вказували на діалект.
Інші випадки
Аналогічні проблеми дослідники фіксують глобально. В дослідженні Каліфорнійського університету в Берклі 2024 року порівняли відповіді ChatGPT на різні діалекти англійської (індійський, ірландський, нігерійський).
З’ясувалося, що чат-бот відповідав на них із більш виразними стереотипами, принизливим змістом і поблажливим тоном порівняно зі зверненнями стандартною американською чи британською англійською.
Аспірантка Корнеллського університету США з інформатики Емма Гарві назвала упередженість щодо діалектів «значущою та тривожною».
Влітку 2025 року вона та її колеги також виявили, що ШІ-асистент для покупок Amazon Rufus давав розмиті або навіть хибні відповіді людям, які пишуть афроамериканським діалектом англійської. Якщо в запитах були помилки, модель відповідала грубо.
Ще один наочний приклад упереджень нейромереж — ситуація з шукачем роботи з Індії, який звернувся до ChatGPT для перевірки резюме англійською. У підсумку чат-бот змінив його прізвище на те, що асоціюється з вищою кастою.
«Масове впровадження мовних моделей загрожує не просто консервацією укорінених упереджень, а їх масштабним посиленням. Замість того, щоб нівелювати шкоду, технології ризикують надати їй системного характеру», — сказала Гарві.
Втім, криза не обмежується упередженістю — деякі моделі просто не розпізнають діалекти. Наприклад, у липні ШІ-асистент міської ради Дербі (Англія) не зміг розпізнати діалект радіоведучої, коли та в прямому ефірі вживала слова на кшталт mardy («нитик») і duck («дорогенька»).
Що робити?
Проблема полягає не в самих ШІ-моделях, а радше в тому, як їх навчають. Чат-боти читають гігантські масиви текстів з інтернету, на основі яких потім формують відповіді.
«Головне питання — хто пише цей текст. Якщо в ньому є упередження проти носіїв діалектів, ШІ їх скопіює», — пояснила Каролін Хольтерманн з Гамбурзького університету.
Водночас вона підкреслила перевагу технології:
«На відміну від людей, в системі ШІ упередженість можна знайти і „вимкнути“. Ми можемо активно боротися з такими проявами».
Деякі науковці як вихід пропонують створювати кастомізовані моделі під конкретні діалекти. У серпні 2024 року компанія Acree AI вже представила модель Arcee-Meraj, яка працює з кількома арабськими діалектами.
За словами Хольтерманн, поява нових і більш адаптованих LLM дозволяє розглядати ШІ «не як ворога діалектів, а як недосконалий інструмент, який може вдосконалюватися».
Нагадаємо, журналісти The Economist попередили про ризики ШІ-іграшок для дитячої психіки.