Hvordan vLLM V1 Inference Fungerer

1

vLLM er en OpenAI-kompatibel, open source inference-motor til store sprogmodeller.

2

HTTP-forespørgsler håndteres af API-serveren, som tokeniserer input og sender forespørgsler til AsyncLLM.

3

AsyncLLM kommunikerer asynkront via IPC med EngineCore, der planlægger og batcher tokens til GPU.

4

Scheduler bruger kontinuerlig batching med et tokenbudget og styrer prefill- og decode-faser.

5

ModelRunner på hver GPU kører transformerens forward pass med FlashAttention og håndterer KV-cache blokke.

6

Tokens detokeniseres i AsyncLLM og returneres til klienten i streaming eller samlet output.