Przebieg żądania inferencji w vLLM V1

vLLM V1 to otwarty silnik inferencji LLM, obsługujący żądania w formacie zgodnym z OpenAI.

Komponent AsyncLLM zarządza tokenizacją, detokenizacją oraz asynchroniczną komunikacją IPC z EngineCore.

EngineCore z Schedulerem odpowiada za ciągłe grupowanie żądań (continuous batching) oraz harmonogramowanie przetwarzania tokenów.

Scheduler stosuje budżet tokenów, by maksymalizować wykorzystanie GPU podczas faz prefill i decode.

ModelExecutor i ModelRunner uruchamiają przetwarzanie na GPU z optymalizacjami FlashAttention i CUDA Graph dla szybszego forward pass.

KVCacheManager zarządza pamięcią GPU, dzieląc klucze i wartości atencji na bloki KV cache dla wielu żądań.

Wyniki inferencji są strumieniowane z powrotem do klienta przez AsyncLLM i serwer API, zarówno w trybie strumieniowym, jak i pełnym.

Get notified when new stories are published for "🇵🇱 Hacker News Polski"

No Sign-In needed. One-Click Subscribe.

•

🇵🇱 Hacker News Polski•June 29, 2025 at 03:42 AM