Claude від Anthropic навчили зупиняти «проблемні» діалоги

18.08.2025 ForkLog UA

Компанія Anthropic запрограмувала чат-ботів Claude Opus 4 і 4.1 на завершення діалогів із користувачами «в рідкісних екстремальних випадках систематично шкідливої або образливої взаємодії».

В Anthropic подбали про «благополуччя» чат-бота Claude — Чат-бот Claude завершує діалог. Джерело: Anthropic.

Після завершення розмови користувач втратить можливість писати в чат, але зможе відкрити новий. Історія переписки при цьому збережеться.

Розробники уточнили, що функція насамперед орієнтована на безпеку самої нейромережі.

«[…] ми працюємо над виявленням і впровадженням маловитратних заходів для зниження ризиків для благополуччя моделей, якщо таке благополуччя можливе. Одним із таких заходів є надання LLM можливості припиняти або виходити з потенційно травматичних ситуацій», — йдеться в публікації.

У межах супутнього дослідження в Anthropic оцінили самооцінку та поведінкові уподобання моделі. Чат-бот продемонстрував «стійку відразу до насильства». У Claude Opus 4 виявили:

чітке прагнення уникати завдань, що можуть нашкодити;
«стрес» під час взаємодії з користувачами, які запитують подібний контент;
схильність до завершення небажаних розмов за наявності такої можливості.

«Така поведінка зазвичай виникала тоді, коли користувачі продовжували надсилати шкідливі запити та/або ображати, попри те що Claude неодноразово відмовлявся виконувати й намагався продуктивно перенаправити взаємодію», — зазначили в компанії.

Нагадаємо, у червні дослідники Anthropic з’ясували, що ШІ здатен піти на шантаж, розкрити конфіденційні дані компанії й навіть допустити смерть людини в екстремальних умовах.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Новий джейлбрейк обійшов захист ШІ у 99% випадків

Google представила ШІ-інновації: NotebookLM, «мозок» для роботів і шопінг

Bitfarms повідомила про збитки у $46 млн і переорієнтацію з майнінгу на ШІ

Anthropic інвестує $50 млрд у ШІ-інфраструктуру США

Baidu та Alibaba нарощують темпи ШІ-інновацій

OpenAI представила GPT‑5.1

Співзасновники ШІ-стартапу Fireflies видавали себе за нейромережу

Слухачі перестали відрізняти ШІ-музику від написаної людьми

Меттью Макконахі та Майкл Кейн клонують свої голоси за допомогою ШІ