В ШІ-бенчмарку OpenAI виявили помилки

03.03.2026 ForkLog UA

#openAI #кібербезпека #ШІ-Агенти #Штучний Інтелект

Компанія з кібербезпеки OpenZeppelin провела аудит нового ШІ-бенчмарку EVMbench від OpenAI. Експерти виявили методологічні помилки та «забруднення» даних.

https://t.co/yW00RmRBZQ

— OpenZeppelin (@OpenZeppelin) March 2, 2026

Розробник ChatGPT запустив EVMbench у середині лютого в партнерстві з інвестфондом Paradigm для оцінки здатності ШІ-агентів знаходити, виправляти та експлуатувати вразливості в смартконтрактах.

Фахівці OpenZeppelin привітали ініціативу, але вирішили перевірити розробку за тими самими стандартами, що й протоколи, які вони захищають (зокрема Aave, Lido та Uniswap).

Ключові недоліки

Головна проблема — «забруднення» тренувальних даних. EVMbench базується на добірці зі 120 вразливостей, виявлених під час аудитів 2024–2025 років.

Водночас провідні моделі, що проходили тестування, мають зріз знань до серпня 2025 року. Вони могли «пам’ятати» відомості про ці вразливості з навчальних даних. Навіть із вимкненим інтернетом це ставить під сумнів чистоту експерименту: невідомо, чи здатен ШІ виявляти справді нові загрози.

В OpenZeppelin також вказали на фактичні помилки у датасеті EVMbench. Щонайменше чотири вразливості з категорії «високого ризику» виявилися непрацездатними. Водночас ШІ-агенти отримували коректні бали за нібито правильне виявлення цих проблем.

«Це не суб’єктивні розбіжності щодо серйозності; це випадки, коли описана атака просто не спрацьовує», — підкреслили експерти.

Фахівці підтвердили, що штучний інтелект відіграє ключову роль у майбутньому безпеки блокчейнів. Втім, вони застерегли: поспіх із впровадженням не має шкодити якості даних і тестів.

«Питання не в тому, чи змінить ШІ безпеку смартконтрактів — він її змінить. Питання в тому, чи відповідатимуть бенчмарки й дані, на яких ми будуємо ці інструменти, тим самим стандартам, що й контракти, які вони покликані захищати», — підсумували в OpenZeppelin.

Нагадаємо, у листопаді експерти Microsoft представили середовище для тестування ШІ-агентів і виявили вразливості, притаманні сучасним цифровим помічникам.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Біткоїн і Ethereum втрималися на тлі падіння акцій виробників ШІ-чипів

Alibaba заборонить продукти Anthropic через ризики безпеки

У Шанхаї запустили інкубаційну зону квантових обчислень

ЗМІ: OpenAI обговорювала передачу уряду США 5% частки

Дослідники залучили ШІ до аналізу квантових схем

Cloudflare блокуватиме «змішані» ШІ-краулери

У червні збиток від криптозламів знизився до $75,9 млн

В ООН попередили: ШІ може посилити глобальну нерівність

Anthropic повертає доступ до Fable 5 після скасування експортних обмежень США