Büyük Dil Modelleri Temel Eğilimleri

1

GPT-2’den GPT-4’e kadar temel modellerin parametre sayıları ve eğitim verisi boyutları belirlendi.

2

LLaMA serisi 7B–65B parametre aralığında, 1,4 trilyon token veriyle önceden eğitildi.

3

LLaMA-3.1 modeli 405 milyar parametreli ve toplam 3,67 trilyon token eğitim verisi kullandı.

4

LLaMA-4’ün 2 trilyon parametreli MoE modeli henüz yayınlanmadı ve güven kaybı yaşandı.

5

MoE mimarisi, etkinleştirilen uzman parametre sayısıyla büyük modellerin erişilebilirliğini artırıyor.

6

Mixtral, DeepSeek V3 ve DBRX gibi yeni açık MoE tabanlı modeller öne çıktı.

7

Çin’de çok modlu ve çok dilli MoE modellerin geliştirilmesine hız verildi.

8

MoE modelleriyle yoğun (dense) modeller arasında doğrudan performans karşılaştırmaları belirsizliğini koruyor.

9

Gelecekte RWKV, byte-latent ve bitnet gibi yeni mimariler ile sentetik veri teknikleri gündemde.

10

Ham model büyüklüğü ve yoğunluğunun temel metin tamamlama motoru performansına etkisi vurgulandı.