vLLM er en OpenAI-kompatibel, open source inference-motor til store sprogmodeller.
HTTP-forespørgsler håndteres af API-serveren, som tokeniserer input og sender forespørgsler til AsyncLLM.
AsyncLLM kommunikerer asynkront via IPC med EngineCore, der planlægger og batcher tokens til GPU.
Scheduler bruger kontinuerlig batching med et tokenbudget og styrer prefill- og decode-faser.
ModelRunner på hver GPU kører transformerens forward pass med FlashAttention og håndterer KV-cache blokke.
Tokens detokeniseres i AsyncLLM og returneres til klienten i streaming eller samlet output.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"