Anthropic випробувала маркетплейс для торгів між ШІ-агентами

Компанія Anthropic запустила тестовий майданчик, де ШІ-агенти виступають у ролі покупців і продавців. Експеримент отримав назву Project Deal.

У проєкті взяли участь 69 співробітників. Кожному виділили бюджет $100 у вигляді подарункових карток.

Перед стартом Claude провів інтерв’ю з учасниками: з’ясував, які особисті речі вони готові продати, що хотіли б купити, за якою ціною і з яким стилем перемовин має діяти їхній агент.

Далі на основі відповідей для кожного створили персональний системний промпт. Ринок запустили в Slack. Там агенти публікували оголошення, робили пропозиції щодо чужих товарів, торгувалися й укладали угоди без участі людей.

Після завершення експерименту співробітники обмінялися справжніми предметами, які погодили їхні «ШІ-представники».

Джерело: Anthropic.

Загалом агенти уклали 186 угод за більш ніж 500 оголошеннями. Сукупна вартість транзакцій перевищила $4000.

В Anthropic зазначили, що учасники загалом залишилися задоволені результатами. Дехто заявив про готовність платити за схожий сервіс у майбутньому.

Чотири версії ринку

Anthropic запустила чотири незалежні версії маркетплейса. Одна була «реальною» — саме за її підсумками співробітники обмінювалися товарами. Решту використовували для дослідницьких цілей. Цю інформацію не розкривали.

У двох варіантах усіх учасників представляла Claude Opus 4.5 — на той момент найпросунутіша модель Anthropic. У двох інших учасникам випадково призначали Opus 4.5 або менш потужну Claude Haiku 4.5.

Якість моделі впливала на результат перемовин. Користувачі з Opus у середньому укладали приблизно на дві угоди більше, ніж користувачі з Haiku.

Під час продажу однакових товарів Opus також виборював вищі ціни. У середньому різниця становила $3,64.

Haiku продав велосипед за $38, а Opus — за $65. Джерело: Anthropic.

Учасники не завжди помічали розбіжність. В Anthropic назвали це потенційною проблемою майбутніх ринків за участю ШІ-агентів: користувачі з менш сильними моделями можуть отримувати гірші умови, не усвідомлюючи невигідне становище.

Промпти майже не вплинули на результат

Дослідники також перевірили, чи впливають стартові вказівки людей на поведінку агентів. Частина учасників просила Claude діяти дружньо, частина — агресивніше торгуватися.

За даними Anthropic, «жорсткі» інструкції не мали статистично значущого впливу на ймовірність продажу, кінцеву ціну чи здатність купувати дешевше.

Команда проєкту уточнила, що справа не обов’язково у слабкому слідуванні інструкціям: Claude справді відтворював заданий стиль спілкування, але це не давало помітної комерційної переваги.

Непередбачувані результати

В Anthropic відзначили кілька непередбачуваних епізодів. Перед запуском агенти отримали обмежений обсяг даних: інтерв’ю з учасниками тривали менш ніж 10 хвилин, а після старту люди вже не могли втручатися в перемовини.

В одному з випадків співробітник придбав через асистента такий самий сноуборд, який у нього вже був. На думку фахівців, людина навряд чи зробила б таку покупку самостійно, але агент зумів точно визначити вподобання учасника.

Інший співробітник попросив бота купити «подарунок для себе». Угода відбулася в реальній версії експерименту. В підсумку до офісу принесли пакет м’ячиків для пінг-понгу, який Anthropic залишила «від імені Claude».

Деякі агенти торгувалися не за товари, а за досвід. Один із них запропонував безкоштовний день із собакою співробітниці. Після обговорення з іншим асистентом сторони погодили «собаче побачення», яке працівники згодом провели.

Джерело: Anthropic.

В Anthropic підкреслили, що саме ці випадки навряд чи повторюватимуться. Втім, поєднання людських уподобань і непередбачуваної поведінки ШІ може призводити до неочікуваних результатів.

Питання до надійності

Засновник неназваної агротехнологічної компанії повідомив на Reddit, що зранку 110 співробітників одночасно отримали сповіщення про призупинення доступу до Claude без попередження.

За його словами, лист виглядав як індивідуальне блокування і містив посилання на персональну форму апеляції, через що команда не відразу зрозуміла, що обмеження зачепило всю організацію.

Підприємець наголосив, що оперативно відновити доступ не вдалося. Минуло 36 годин після подання запитів, а Anthropic так і не надала роз’яснень.

При цьому API-акаунт фірми продовжував працювати і списувати кошти. Корпоративні адміністратори не могли увійти до панелі керування, щоб перевірити платежі та використання сервісу.

Засновник також зазначив, що блокування всієї організації могло статися через дії одного користувача. В Claude немає окремих обмежень на рівні робочого простору, механізму локальної ізоляції порушень або адміністративного пріоритету для збереження доступу решти команди.

На його думку, така модель модерації ставить під сумнів можливість використання Claude як критичної інфраструктури для повсякденних бізнес-операцій.

З проблемою стикаються й інші компанії. Один із користувачів поділився посиланням на сервіс, де на момент написання зафіксовано 53 подібні випадки.

Нагадаємо, у квітні в Bloomberg дізналися про несанкціонований доступ до ШІ‑моделі Mythos від Anthropic.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK
Exit mobile version