Se presenta la evolución de modelos base de lenguaje desde GPT-2 (137M a 1.61B parámetros) hasta GPT-3 (175B parámetros) y menciona la falta de datos oficiales de GPT-3.5 y GPT-4.
LLaMA abarca modelos de 7B a 65B parámetros, mientras que Llama-3.1 incluye un modelo denso de 405B parámetros entrenado con 3.67T tokens.
Llama-4 planea un modelo MoE de 2T parámetros con 288B activos y 16 expertos, aunque permanece sin publicar.
Entre 2019 y 2023 existió escasez de LLMs grandes accesibles públicamente, lo que incentivó el uso de modelos sintéticos y ajustes de pequeño tamaño.
El lanzamiento de Mixtral y otros modelos MoE (p. ej. Mixtral-8x22B) marcó el inicio de una ola de arquitecturas de expertos para democratizar el acceso a LLMs de gran escala.
DeepSeek V3 (671B MoE, 37B activados) y otros proyectos abiertos de MoE han permitido descargar modelos comparables al nivel GPT-4.
Varios modelos chinos (DBRX, MiniMax, dots.llm1, Hunyuan-A13B, ERNIE-4.5) emplean arquitecturas MoE y contextos extensos, promoviendo la multimodalidad y el multilingüismo.
La comparación entre modelos densos y MoE sigue siendo incierta, dado que los benchmarks actuales no capturan completamente la inteligencia de los LLMs.
La tendencia actual enfatiza la creación de chatbots de asistencia mediante fine-tuning y annealing, desviándose del objetivo de motores puros de continuación de texto.
Se anticipa la experimentación con nuevas arquitecturas (RWKV, byte-latent, bitnet) y generación de datos sintéticos para mejorar los modelos de texto.
Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"