Perbandingan Arsitektur Model LLM Modern

1

Arsitektur LLM modern dari GPT-2 hingga Llama 4 tetap serupa dengan penyempurnaan seperti RoPE, Grouped-Query Attention, dan SwiGLU.

2

DeepSeek V3/R1 mengadopsi Multi-Head Latent Attention (MLA) untuk kompresi KV cache dan Mixture-of-Experts (MoE) untuk efisiensi inferensi.

3

OLMo 2 memindahkan lapisan RMSNorm menjadi Post-Norm dan menambahkan QK-Norm di dalam mekanisme perhatian untuk stabilitas pelatihan.

4

Gemma 3 menggunakan sliding window attention untuk mengurangi memori KV cache dan mengombinasikan Pre-Norm serta Post-Norm RMSNorm.

5

Mistral Small 3.1 menurunkan latensi inferensi dengan tokenizer khusus, ukuran KV cache lebih kecil, dan arsitektur standar.

6

Llama 4 dan DeepSeek V3 sama-sama memakai MoE, namun berbeda di penggunaan GQA vs MLA, jumlah expert, dan konfigurasi MoE.

7

Qwen3 hadir dalam varian dense dan MoE; model 0.6B cocok untuk lokal, sedangkan 235B-A22B MoE untuk inferensi efisien skala besar.

8

SmolLM3 menghilangkan embedding posisi (NoPE) pada sebagian lapisan untuk generalisasi panjang konteks lebih baik.

9

Kimi K2 (1T parameter) memperbesar arsitektur DeepSeek V3, menambah jumlah expert MoE, dan menggunakan optimizer Muon untuk pelatihan lancar.