NVIDIA membuka dataset Llama Nemotron Post-Training berisi 32 juta sampel untuk melatih kemampuan penalaran LLM.
Model dasar 8B (Llama 3.1 Instruct) dapat diajarkan bernalar memakai LoRA rank 64 di satu GPU H100 dalam 48 jam.
Dataset menyertakan mode “reasoning on/off” yang dikontrol lewat prompt sistem, memudahkan pengaturan beban komputasi saat inferensi.
Resep tiga langkah: kurasi data dengan NeMo Curator, fine-tuning adapter LoRA di NeMo Framework, lalu evaluasi.
Kurasi disarankan: pilih subset math & chat, 500 ribu sampel, filter bahasa & panjang, terapkan template chat, gunakan curriculum learning.
Hyperparameter kunci: learning rate 1e-4, batch efektif 256, 2 000 langkah; perilaku penalaran stabil muncul setelah ≈13 jam.
Adapter terlatih mengungguli model dasar hingga 10 poin pada benchmark GPQA dan MMLU.
Seluruh kode kurasi, pelatihan, dan evaluasi tersedia di GitHub; metode dapat diperluas dengan data spesifik domain.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"