大規模言語モデルの動向

1

GPT-2からGPT-3.5/4までパラメータ数とトレーニングデータ量が大幅に増加した。

2

LLaMAシリーズは7Bから65B、さらに405Bへと拡大し、兆級トークンを用いて事前学習された。

3

MoE（Mixture of Experts）アーキテクチャモデル（Mixtral、DeepSeek-V3など）が大規模化と計算効率向上を推進している。

4

中国をはじめとする企業が多言語・多モーダル対応の大規模MoEモデルを次々と公開している。

5

MoEモデルはDenseモデルとの性能比較が難しく、既存の自動ベンチマークでは真の能力を評価しきれない。

6

将来的には新アーキテクチャ（RWKV、byte-latentなど）や合成データ生成技術の進化が注目される。