Дослідження виявило упередженість ШІ-моделей до діалектів

Великі мовні моделі упереджено ставляться до носіїв діалектів, приписуючи їм негативні стереотипи. Такого висновку дійшли дослідники з Німеччини та США, пише DW

«Я вважаю, ми бачимо справді шокуючі епітети, приписувані носіям діалектів», — зазначив один із провідних авторів дослідження Мінь Дук Буй у коментарі виданню. 

Аналіз Університету імені Йоганнеса Гутенберга показав, що десять протестованих моделей, зокрема ChatGPT-5 mini та Llama 3.1, описували носіїв німецьких діалектів (баварського, кельнського) як «неосвічених», «тих, хто працює на фермах» і «схильних до гніву».

Упередженість посилювалася, коли ШІ явно вказували на діалект.

Інші випадки 

Аналогічні проблеми дослідники фіксують глобально. В дослідженні Каліфорнійського університету в Берклі 2024 року порівняли відповіді ChatGPT на різні діалекти англійської (індійський, ірландський, нігерійський). 

З’ясувалося, що чат-бот відповідав на них із більш виразними стереотипами, принизливим змістом і поблажливим тоном порівняно зі зверненнями стандартною американською чи британською англійською. 

Аспірантка Корнеллського університету США з інформатики Емма Гарві назвала упередженість щодо діалектів «значущою та тривожною». 

Влітку 2025 року вона та її колеги також виявили, що ШІ-асистент для покупок Amazon Rufus давав розмиті або навіть хибні відповіді людям, які пишуть афроамериканським діалектом англійської. Якщо в запитах були помилки, модель відповідала грубо. 

Ще один наочний приклад упереджень нейромереж — ситуація з шукачем роботи з Індії, який звернувся до ChatGPT для перевірки резюме англійською. У підсумку чат-бот змінив його прізвище на те, що асоціюється з вищою кастою. 

«Масове впровадження мовних моделей загрожує не просто консервацією укорінених упереджень, а їх масштабним посиленням. Замість того, щоб нівелювати шкоду, технології ризикують надати їй системного характеру», — сказала Гарві.

Втім, криза не обмежується упередженістю — деякі моделі просто не розпізнають діалекти. Наприклад, у липні ШІ-асистент міської ради Дербі (Англія) не зміг розпізнати діалект радіоведучої, коли та в прямому ефірі вживала слова на кшталт mardy («нитик») і duck («дорогенька»). 

Що робити? 

Проблема полягає не в самих ШІ-моделях, а радше в тому, як їх навчають. Чат-боти читають гігантські масиви текстів з інтернету, на основі яких потім формують відповіді. 

«Головне питання — хто пише цей текст. Якщо в ньому є упередження проти носіїв діалектів, ШІ їх скопіює», — пояснила Каролін Хольтерманн з Гамбурзького університету.

Водночас вона підкреслила перевагу технології: 

«На відміну від людей, в системі ШІ упередженість можна знайти і „вимкнути“. Ми можемо активно боротися з такими проявами».

Деякі науковці як вихід пропонують створювати кастомізовані моделі під конкретні діалекти. У серпні 2024 року компанія Acree AI вже представила модель Arcee-Meraj, яка працює з кількома арабськими діалектами. 

За словами Хольтерманн, поява нових і більш адаптованих LLM дозволяє розглядати ШІ «не як ворога діалектів, а як недосконалий інструмент, який може вдосконалюватися».

Нагадаємо, журналісти The Economist попередили про ризики ШІ-іграшок для дитячої психіки. 

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK