OpenAI представила бенчмарк для оцінки здатності ШІ‑агентів зламувати смартконтракти


Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ШІ-агентів виявляти, виправляти та експлуатувати вразливості у смартконтрактах.
Інструмент базується на 120 відібраних вразливостях із 40 аудитів. Більшість прикладів узято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, створеної Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоїнах.
Інтеграція з Tempo дозволила додати в бенчмарк платіжні смартконтракти — сегмент, де очікується активне застосування «стейблкоїнів» і ШІ-агентів.
Для створення тестового середовища OpenAI адаптувала наявні експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.
EVMbench оцінює три режими можливостей:
- Detect — виявлення вразливостей;
- Patch — усунення проблем;
- Exploit — використання для крадіжки коштів.
Результативність ШІ-моделей
OpenAI протестувала передові моделі в усіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. Водночас показники виявлення та виправлення вразливостей виявилися скромнішими — багато проблем і далі складно знаходити й усувати.
У Detect ШІ-агенти інколи зупиняються після виявлення однієї вразливості замість проведення повного аудиту. У режимі Patch їм поки складно закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.
Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ШІ-агентів і виявила вразливості, притаманні сучасним цифровим помічникам.