ChatGPT навчився виконувати завдання замість людини

OpenAI презентувала нового універсального ШІ-агента в ChatGPT, здатного самостійно виконувати широкий спектр комп’ютерних задач від імені користувача.

За словами компанії, агент може автоматично керувати календарем, створювати редаговані презентації та слайди, а також запускати код.

ChatGPT agent поєднує функціонал кількох попередніх агентних систем: здатність Operator кліком взаємодіяти з вебсайтами, можливості Deep Research зі збору інформації з десятків джерел і створення стислих аналітичних звітів.

Керування агентом відбувається в діалозі звичайною мовою. Початково інструмент доступний користувачам з підписками Pro, Plus і Team. Для активації потрібно вибрати «режим агента» (agent mode) у меню ChatGPT.

Новий агент підтримує ChatGPT connectors — інтеграцію з Gmail, GitHub та іншими застосунками для виконання запитів. Також він має доступ до терміналу та вміє працювати з API.

Сценарії використання вже включають планування і покупку інгредієнтів для японського сніданку на чотирьох, аналіз конкурентів і створення презентації на основі результатів.

Тестування

Модель, що лежить в основі агента, показує передові результати у низці бенчмарків. У тесті Humanity’s Last Exam — одному з найскладніших, що включає тисячі питань з понад 100 дисциплін, — ChatGPT agent набрав 41,6%, що вдвічі перевищує результати моделей o3 і o4-mini.

ChatGPT научился выполнять задачи вместо человека
Порівняння моделей у Humanity’s Last Exam. Джерело: OpenAI.

У складному математичному бенчмарку FrontierMath агент досяг результату 27,4%. Попередній рекорд належав o4-mini — 6,3%.

Безпека

OpenAI наголосила на важливості безпеки нового агента через його потужний функціонал, що потенційно може бути використаний зловмисниками.

У системному звіті зазначено, що модель має «високу здатність» у сфері біологічної та хімічної зброї, тобто теоретично здатна посилити наявні шляхи завдання шкоди. Прямих доказів загрози немає, але компанія вживає запобіжних заходів:

  • онлайн-моніторинг — усі запити користувача проходять через класифікатор, який визначає, чи пов’язані вони з біологічною тематикою. Якщо так — відповідь перевіряється ще раз на потенційну загрозу;
  • відключена функція памʼяті — для запобігання витоку даних через шкідливі інʼєкції у промптах.

Нагадаємо, у липні стало відомо, що OpenAI посилила безпеку систем на тлі загроз корпоративного шпигунства з боку китайських конкурентів.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK