OpenAI dan Paradigm membangun EVMbench dari 120 kerentanan audit nyata.
Pengujian benchmark menguji AI dalam mode deteksi, perbaikan, dan eksploitasi menggunakan lingkungan sandbox EVM.
GPT-5.3-Codex mendapatkan skor 72,2% dalam mode eksploitasi, mengungguli hasil GPT-5 sebelumnya.

OpenAI, bekerja sama dengan Paradigm, mengungkapkan sebuah tolok ukur baru untuk menguji kinerja AI dalam keamanan kontrak pintar Ethereum. Rilis ini, yang diumumkan minggu ini, memperkenalkan EVMbench sebagai cara untuk mengukur bagaimana agen AI mendeteksi, memperbaiki, dan mengeksploitasi kelemahan kontrak. Upaya ini menargetkan risiko yang meningkat, karena kontrak pintar mengamankan lebih dari $100 miliar aset kripto di jaringan EVM.

Tolok ukur Dibangun dari Kegagalan Audit Dunia Nyata

Menurut OpenAI, EVMbench diambil dari 120 kerentanan tingkat tinggi yang diidentifikasi dari 40 audit kontrak pintar profesional. Terutama, banyak dari masalah ini berasal dari kompetisi audit terbuka, termasuk Code4rena. Tolok ukur ini fokus pada bug nyata daripada contoh sintetis.

Selain itu, OpenAI mengatakan dataset ini mencakup skenario terkait pekerjaan keamanan di rantai Tempo. Tempo beroperasi sebagai jaringan Layer-1 yang berfokus pada pembayaran yang dibangun untuk transfer stablecoin. Karena itu, kasus-kasus ini memperkenalkan risiko logika pembayaran ke dalam lingkungan tolok ukur.

Untuk mendukung pengujian yang realistis, insinyur menggunakan kembali skrip bukti konsep eksploitasi yang tersedia. Namun, mereka secara manual membangun komponen yang hilang ketika dokumentasi terbukti tidak lengkap. OpenAI mengatakan mereka mempertahankan kemampuan eksploitasi sambil memastikan perbaikan dapat dikompilasi dengan benar.

Tiga Mode Pengujian Menguji Agen AI

EVMbench mengevaluasi agen dalam mode deteksi, perbaikan, dan eksploitasi. Dalam mode deteksi, agen memindai repositori dan menerima skor berdasarkan tingkat keberhasilan deteksi kerentanan. Dalam mode perbaikan, agen harus memperbaiki kelemahan sambil mempertahankan perilaku kontrak asli.

Mode eksploitasi, bagaimanapun, mensimulasikan serangan penuh yang menguras dana dalam blockchain sandbox. OpenAI mengatakan penilai mengonfirmasi hasil melalui pemutaran ulang transaksi dan pemeriksaan status di blockchain. Untuk memastikan konsistensi, perusahaan membangun alat pengujian berbasis Rust untuk penyebaran deterministik.

Pengujian eksploitasi dijalankan di lingkungan Anvil lokal, bukan jaringan langsung. OpenAI mencatat bahwa semua kerentanan bersifat historis dan telah dipublikasikan. Selain itu, alat pengujian membatasi panggilan RPC yang tidak aman untuk mengurangi penyalahgunaan.

Hasil dan Perluasan Tim

Dalam hasil yang dilaporkan, GPT-5.3-Codex mencapai skor 72,2% dalam mode eksploitasi. Sebagai perbandingan, GPT-5 mencapai 31,9%, meskipun diluncurkan beberapa bulan sebelumnya. Namun, OpenAI mengatakan bahwa cakupan deteksi dan perbaikan masih belum lengkap.

Selain EVMbench, OpenAI mengonfirmasi perekrutan kunci. Peter Steinberger, pendiri OpenClaw, bergabung dengan perusahaan untuk bekerja pada pengembangan agen. Sam Altman mengonfirmasi langkah ini di X, menyebutkan bahwa Steinberger akan memimpin proyek agen pribadi generasi berikutnya.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Komentar

0/400

Tidak ada komentar