Infrastruktur RL Terminal Berskala Besar

1

Kode menyediakan infrastruktur GRPO yang stabil yang dapat menskalakan pelatihan agen LLM terminal hingga 32 GPU H100.

2

Agen dasar Qwen3-32B tanpa pelatihan tambahan mencapai skor tertinggi di antara agen Qwen3 pada TerminalBench Stanford (13,75%).

3

Rangkaian hadiah menggabungkan pengujian perangkat lunak otomatis (65%) dan penilaian LLM (35%) dengan Claude Sonnet 4 sebagai hakim utama.

4

Lingkungan pelatihan memanfaatkan Docker terisolasi per rollout dan alat khusus (bash, file, pencarian, todo) yang diakses via XML/YAML.

5

Preset konfigurasi memungkinkan pelatihan dari 2x A100 hingga 32x H100 melalui rLLM, dengan pemantauan WandB dan optimasi memori otomatis.

6

Dataset terbuka berisi 331 tugas terminal berbagai kesulitan yang dihasilkan dan divalidasi secara sintetis.

7

Penulis mencari dukungan komputasi untuk menjalankan pelatihan penuh serta berencana menambah data dan menerapkan curriculum learning.