Arsitektur LLM modern dari GPT-2 hingga Llama 4 tetap serupa dengan penyempurnaan seperti RoPE, Grouped-Query Attention, dan SwiGLU.
DeepSeek V3/R1 mengadopsi Multi-Head Latent Attention (MLA) untuk kompresi KV cache dan Mixture-of-Experts (MoE) untuk efisiensi inferensi.
OLMo 2 memindahkan lapisan RMSNorm menjadi Post-Norm dan menambahkan QK-Norm di dalam mekanisme perhatian untuk stabilitas pelatihan.
Gemma 3 menggunakan sliding window attention untuk mengurangi memori KV cache dan mengombinasikan Pre-Norm serta Post-Norm RMSNorm.
Mistral Small 3.1 menurunkan latensi inferensi dengan tokenizer khusus, ukuran KV cache lebih kecil, dan arsitektur standar.
Llama 4 dan DeepSeek V3 sama-sama memakai MoE, namun berbeda di penggunaan GQA vs MLA, jumlah expert, dan konfigurasi MoE.
Qwen3 hadir dalam varian dense dan MoE; model 0.6B cocok untuk lokal, sedangkan 235B-A22B MoE untuk inferensi efisien skala besar.
SmolLM3 menghilangkan embedding posisi (NoPE) pada sebagian lapisan untuk generalisasi panjang konteks lebih baik.
Kimi K2 (1T parameter) memperbesar arsitektur DeepSeek V3, menambah jumlah expert MoE, dan menggunakan optimizer Muon untuk pelatihan lancar.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"