vLLM es un motor de inferencia open source que sirve modelos de lenguaje a gran escala.
La arquitectura V1 incluye servidor API, AsyncLLM, EngineCore, Scheduler, ModelExecutor, ModelRunner y KVCacheManager.
El servidor API recibe solicitudes HTTP, AsyncLLM tokeniza y envía peticiones al EngineCore vía IPC para evitar el GIL.
El Scheduler implementa un batching continuo para agrupar tokens de prefill y decodificación, maximizando la utilización de GPU.
El KVCacheManager gestiona la memoria GPU en bloques fijos para almacenar claves y valores de atención de manera eficiente.
El ModelRunner ejecuta el forward pass en GPU usando FlashAttention y CUDA, procesando múltiples solicitudes en paralelo.
El flujo completo abarca tokenización, programación, ejecución en GPU, muestreo de tokens y streaming de respuestas al cliente.
Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"