Dokumen ini merangkum perkembangan ukuran dan data latih model bahasa besar (LLM) sejak GPT-2 hingga gelombang MoE terkini.
GPT-2 diluncurkan tahun 2019 dengan kapasitas 137 juta hingga 1,61 miliar parameter, ditraining pada sekitar 10 miliar token.
GPT-3 (2020) memiliki 175 miliar parameter dengan sekitar 400 miliar token latih, memerlukan ribuan GPU A100 selama berbulan-bulan.
Informasi resmi tentang arsitektur dan data pelatihan GPT-3.5 dan GPT-4 belum tersedia.
Keluarga LLaMA Meta meliputi model 7B hingga 65B parameter dengan dataset 1,4 triliun token, dan LLaMA-3.1 405B dengan total 3,67 triliun token.
LLaMA-4 yang tidak dirilis dikabarkan model MoE 2 triliun parameter, namun mengalami kontroversi benchmark yang menurunkan kepercayaan.
Sebelum LLaMA-3.1, tidak ada model besar setara GPT-3 yang dapat diunduh secara bebas.
Gelombang MoE terbaru melahirkan model besar seperti DeepSeek V3 (671B MoE), DBRX (132B A36B), MiniMaxAI, Rednote, Tencent, dan Baidu.
MoE memisahkan parameter menjadi ahli (experts) aktif untuk efisiensi, namun perbandingan kinerja dengan model padat masih belum jelas.
Tren masa depan mencakup arsitektur baru (RWKV, byte-latent, bitnet) dan penggunaan data sintetik untuk efisiensi pelatihan tanpa masalah hak cipta.
Get notified when new stories are published for "🇮🇩 Hacker News Bahasa Indonesia"