В ШІ-бенчмарку OpenAI виявили помилки

Компанія з кібербезпеки OpenZeppelin провела аудит нового ШІ-бенчмарку EVMbench від OpenAI. Експерти виявили методологічні помилки та «забруднення» даних.

Розробник ChatGPT запустив EVMbench у середині лютого в партнерстві з інвестфондом Paradigm для оцінки здатності ШІ-агентів знаходити, виправляти та експлуатувати вразливості в смартконтрактах.

Фахівці OpenZeppelin привітали ініціативу, але вирішили перевірити розробку за тими самими стандартами, що й протоколи, які вони захищають (зокрема Aave, Lido та Uniswap).

Ключові недоліки

Головна проблема — «забруднення» тренувальних даних. EVMbench базується на добірці зі 120 вразливостей, виявлених під час аудитів 2024–2025 років.

Водночас провідні моделі, що проходили тестування, мають зріз знань до серпня 2025 року. Вони могли «пам’ятати» відомості про ці вразливості з навчальних даних. Навіть із вимкненим інтернетом це ставить під сумнів чистоту експерименту: невідомо, чи здатен ШІ виявляти справді нові загрози.

В OpenZeppelin також вказали на фактичні помилки у датасеті EVMbench. Щонайменше чотири вразливості з категорії «високого ризику» виявилися непрацездатними. Водночас ШІ-агенти отримували коректні бали за нібито правильне виявлення цих проблем.

«Це не суб’єктивні розбіжності щодо серйозності; це випадки, коли описана атака просто не спрацьовує», — підкреслили експерти.

Фахівці підтвердили, що штучний інтелект відіграє ключову роль у майбутньому безпеки блокчейнів. Втім, вони застерегли: поспіх із впровадженням не має шкодити якості даних і тестів.

«Питання не в тому, чи змінить ШІ безпеку смартконтрактів — він її змінить. Питання в тому, чи відповідатимуть бенчмарки й дані, на яких ми будуємо ці інструменти, тим самим стандартам, що й контракти, які вони покликані захищати», — підсумували в OpenZeppelin.

Нагадаємо, у листопаді експерти Microsoft представили середовище для тестування ШІ-агентів і виявили вразливості, притаманні сучасним цифровим помічникам.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK