Kode menyediakan infrastruktur GRPO yang stabil yang dapat menskalakan pelatihan agen LLM terminal hingga 32 GPU H100.
Agen dasar Qwen3-32B tanpa pelatihan tambahan mencapai skor tertinggi di antara agen Qwen3 pada TerminalBench Stanford (13,75%).
Rangkaian hadiah menggabungkan pengujian perangkat lunak otomatis (65%) dan penilaian LLM (35%) dengan Claude Sonnet 4 sebagai hakim utama.
Lingkungan pelatihan memanfaatkan Docker terisolasi per rollout dan alat khusus (bash, file, pencarian, todo) yang diakses via XML/YAML.
Preset konfigurasi memungkinkan pelatihan dari 2x A100 hingga 32x H100 melalui rLLM, dengan pemantauan WandB dan optimasi memori otomatis.
Dataset terbuka berisi 331 tugas terminal berbagai kesulitan yang dihasilkan dan divalidasi secara sintetis.
Penulis mencari dukungan komputasi untuk menjalankan pelatihan penuh serta berencana menambah data dan menerapkan curriculum learning.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"