Latih LLM Berlogika Akhir Pekan Dengan NeMo

1

NVIDIA membuka dataset Llama Nemotron Post-Training berisi 32 juta sampel untuk melatih kemampuan penalaran LLM.

2

Model dasar 8B (Llama 3.1 Instruct) dapat diajarkan bernalar memakai LoRA rank 64 di satu GPU H100 dalam 48 jam.

3

Dataset menyertakan mode “reasoning on/off” yang dikontrol lewat prompt sistem, memudahkan pengaturan beban komputasi saat inferensi.

4

Resep tiga langkah: kurasi data dengan NeMo Curator, fine-tuning adapter LoRA di NeMo Framework, lalu evaluasi.

5

Kurasi disarankan: pilih subset math & chat, 500 ribu sampel, filter bahasa & panjang, terapkan template chat, gunakan curriculum learning.

6

Hyperparameter kunci: learning rate 1e-4, batch efektif 256, 2 000 langkah; perilaku penalaran stabil muncul setelah ≈13 jam.

7

Adapter terlatih mengungguli model dasar hingga 10 poin pada benchmark GPQA dan MMLU.

8

Seluruh kode kurasi, pelatihan, dan evaluasi tersedia di GitHub; metode dapat diperluas dengan data spesifik domain.