OpenAI представила бенчмарк для оцінки здатності ШІ‑агентів зламувати смартконтракти

Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ШІ-агентів виявляти, виправляти та експлуатувати вразливості у смартконтрактах.

Інструмент базується на 120 відібраних вразливостях із 40 аудитів. Більшість прикладів узято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, створеної Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоїнах.

Інтеграція з Tempo дозволила додати в бенчмарк платіжні смартконтракти — сегмент, де очікується активне застосування «стейблкоїнів» і ШІ-агентів.

Для створення тестового середовища OpenAI адаптувала наявні експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.

EVMbench оцінює три режими можливостей:

  • Detect — виявлення вразливостей;
  • Patch — усунення проблем;
  • Exploit — використання для крадіжки коштів.

Результативність ШІ-моделей

OpenAI протестувала передові моделі в усіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. Водночас показники виявлення та виправлення вразливостей виявилися скромнішими — багато проблем і далі складно знаходити й усувати.

У Detect ШІ-агенти інколи зупиняються після виявлення однієї вразливості замість проведення повного аудиту. У режимі Patch їм поки складно закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.

Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ШІ-агентів і виявила вразливості, притаманні сучасним цифровим помічникам.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK