vLLM recebe pedidos via servidor API assíncrono (AsyncLLM) e comunica-se com o núcleo de inferência (EngineCore) por IPC assíncrono.
O EngineCore executa um laço de trabalho que recolhe pedidos, agenda lotes de tokens com o Scheduler e processa a inferência no GPU.
O Scheduler usa um algoritmo de batching contínuo para maximizar a utilização do GPU, agrupando tokens de vários pedidos até um limite definido.
O KVCacheManager gere a memória GPU em blocos fixos, armazenando tensores de chaves e valores para aceleração das fases de prefill e decoding.
O ModelRunner carrega o modelo em cada GPU e executa as passagens forward com otimizações como FlashAttention-3 para cálculo eficiente de atenção.
O AsyncLLM detokeniza e transmite os tokens gerados de volta ao cliente, suportando modo de streaming ou resposta completa.
Get notified when new stories are published for "🇵🇹 Hacker News Português"