Qodo memperkenalkan PR Benchmark untuk mengukur kemampuan model AI dalam tugas review kode nyata.
PR Benchmark menggunakan data 400 pull request dari lebih 100 repositori publik dengan berbagai bahasa dan framework.
Model dibandingkan berdasarkan kualitas saran review, relevansi, dan kejelasan menggunakan model penilai o3.
GPT-5 varian medium meraih skor tertinggi 72,2, diikuti varian low 70,9, dan varian minimal 58,5.
GPT-5 unggul dalam mendeteksi bug kritis, menghasilkan patch yang ringkas, dan mematuhi aturan proyek.
Varian minimal GPT-5 menekankan latensi rendah untuk respons hampir real-time.
Beberapa kelemahan GPT-5 meliputi false positives, klasifikasi keparahan yang tidak konsisten, dan saran berulang.
PR Benchmark penting untuk memahami dukungan model AI dalam alur kerja review kode nyata.
Qodo berencana memperluas benchmark ke lebih banyak bahasa, pull request multi-file, dan konteks panjang.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"