Tendencias de Modelos Base de Lenguaje

1

Se presenta la evolución de modelos base de lenguaje desde GPT-2 (137M a 1.61B parámetros) hasta GPT-3 (175B parámetros) y menciona la falta de datos oficiales de GPT-3.5 y GPT-4.

2

LLaMA abarca modelos de 7B a 65B parámetros, mientras que Llama-3.1 incluye un modelo denso de 405B parámetros entrenado con 3.67T tokens.

3

Llama-4 planea un modelo MoE de 2T parámetros con 288B activos y 16 expertos, aunque permanece sin publicar.

4

Entre 2019 y 2023 existió escasez de LLMs grandes accesibles públicamente, lo que incentivó el uso de modelos sintéticos y ajustes de pequeño tamaño.

5

El lanzamiento de Mixtral y otros modelos MoE (p. ej. Mixtral-8x22B) marcó el inicio de una ola de arquitecturas de expertos para democratizar el acceso a LLMs de gran escala.

6

DeepSeek V3 (671B MoE, 37B activados) y otros proyectos abiertos de MoE han permitido descargar modelos comparables al nivel GPT-4.

7

Varios modelos chinos (DBRX, MiniMax, dots.llm1, Hunyuan-A13B, ERNIE-4.5) emplean arquitecturas MoE y contextos extensos, promoviendo la multimodalidad y el multilingüismo.

8

La comparación entre modelos densos y MoE sigue siendo incierta, dado que los benchmarks actuales no capturan completamente la inteligencia de los LLMs.

9

La tendencia actual enfatiza la creación de chatbots de asistencia mediante fine-tuning y annealing, desviándose del objetivo de motores puros de continuación de texto.

10

Se anticipa la experimentación con nuevas arquitecturas (RWKV, byte-latent, bitnet) y generación de datos sintéticos para mejorar los modelos de texto.

Tendencias de Modelos Base de Lenguaje

Subscribe to Similar Stories

Tendencias de Modelos Base de Lenguaje

Subscribe to Similar Stories