Tren Model Bahasa Besar

1

Dokumen ini merangkum perkembangan ukuran dan data latih model bahasa besar (LLM) sejak GPT-2 hingga gelombang MoE terkini.

2

GPT-2 diluncurkan tahun 2019 dengan kapasitas 137 juta hingga 1,61 miliar parameter, ditraining pada sekitar 10 miliar token.

3

GPT-3 (2020) memiliki 175 miliar parameter dengan sekitar 400 miliar token latih, memerlukan ribuan GPU A100 selama berbulan-bulan.

4

Informasi resmi tentang arsitektur dan data pelatihan GPT-3.5 dan GPT-4 belum tersedia.

5

Keluarga LLaMA Meta meliputi model 7B hingga 65B parameter dengan dataset 1,4 triliun token, dan LLaMA-3.1 405B dengan total 3,67 triliun token.

6

LLaMA-4 yang tidak dirilis dikabarkan model MoE 2 triliun parameter, namun mengalami kontroversi benchmark yang menurunkan kepercayaan.

7

Sebelum LLaMA-3.1, tidak ada model besar setara GPT-3 yang dapat diunduh secara bebas.

8

Gelombang MoE terbaru melahirkan model besar seperti DeepSeek V3 (671B MoE), DBRX (132B A36B), MiniMaxAI, Rednote, Tencent, dan Baidu.

9

MoE memisahkan parameter menjadi ahli (experts) aktif untuk efisiensi, namun perbandingan kinerja dengan model padat masih belum jelas.

10

Tren masa depan mencakup arsitektur baru (RWKV, byte-latent, bitnet) dan penggunaan data sintetik untuk efisiensi pelatihan tanpa masalah hak cipta.