GPT-2’den GPT-4’e kadar temel modellerin parametre sayıları ve eğitim verisi boyutları belirlendi.
LLaMA serisi 7B–65B parametre aralığında, 1,4 trilyon token veriyle önceden eğitildi.
LLaMA-3.1 modeli 405 milyar parametreli ve toplam 3,67 trilyon token eğitim verisi kullandı.
LLaMA-4’ün 2 trilyon parametreli MoE modeli henüz yayınlanmadı ve güven kaybı yaşandı.
MoE mimarisi, etkinleştirilen uzman parametre sayısıyla büyük modellerin erişilebilirliğini artırıyor.
Mixtral, DeepSeek V3 ve DBRX gibi yeni açık MoE tabanlı modeller öne çıktı.
Çin’de çok modlu ve çok dilli MoE modellerin geliştirilmesine hız verildi.
MoE modelleriyle yoğun (dense) modeller arasında doğrudan performans karşılaştırmaları belirsizliğini koruyor.
Gelecekte RWKV, byte-latent ve bitnet gibi yeni mimariler ile sentetik veri teknikleri gündemde.
Ham model büyüklüğü ve yoğunluğunun temel metin tamamlama motoru performansına etkisi vurgulandı.
Get notified when new stories are published for "🇹🇷 Hacker News Türkçe"