SmolLM3: Model 3B Multibahasa Konteks Panjang

SmolLM3 adalah model 3 miliar parameter yang melampaui Llama-3.2-3B dan Qwen2.5-3B serta kompetitif dengan model 4B.

Menawarkan dual mode reasoning dengan flag /think dan /no_think untuk berpindah antara mode berpikir dan jawaban langsung.

Mendukung konteks panjang hingga 128k token menggunakan teknik NoPE, GQA, dan YaRN.

Multibahasa dengan dukungan enam bahasa: Inggris, Prancis, Spanyol, Jerman, Italia, dan Portugis.

Unggul pada berbagai benchmark pengetahuan, penalaran, matematika, pemrograman, dan multibahasa.

Memublikasikan resep lengkap pelatihan (pra, mid, pasca), data, konfigurasi, dan skrip secara terbuka.

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.

•

SmolLM3 adalah model 3 miliar parameter yang melampaui Llama-3.2-3B dan Qwen2.5-3B serta kompetitif dengan model 4B.

Menawarkan dual mode reasoning dengan flag /think dan /no_think untuk berpindah antara mode berpikir dan jawaban langsung.

Mendukung konteks panjang hingga 128k token menggunakan teknik NoPE, GQA, dan YaRN.

Multibahasa dengan dukungan enam bahasa: Inggris, Prancis, Spanyol, Jerman, Italia, dan Portugis.

Unggul pada berbagai benchmark pengetahuan, penalaran, matematika, pemrograman, dan multibahasa.

Memublikasikan resep lengkap pelatihan (pra, mid, pasca), data, konfigurasi, dan skrip secara terbuka.

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.