vLLM V1 to otwarty silnik inferencji LLM, obsługujący żądania w formacie zgodnym z OpenAI.
Komponent AsyncLLM zarządza tokenizacją, detokenizacją oraz asynchroniczną komunikacją IPC z EngineCore.
EngineCore z Schedulerem odpowiada za ciągłe grupowanie żądań (continuous batching) oraz harmonogramowanie przetwarzania tokenów.
Scheduler stosuje budżet tokenów, by maksymalizować wykorzystanie GPU podczas faz prefill i decode.
ModelExecutor i ModelRunner uruchamiają przetwarzanie na GPU z optymalizacjami FlashAttention i CUDA Graph dla szybszego forward pass.
KVCacheManager zarządza pamięcią GPU, dzieląc klucze i wartości atencji na bloki KV cache dla wielu żądań.
Wyniki inferencji są strumieniowane z powrotem do klienta przez AsyncLLM i serwer API, zarówno w trybie strumieniowym, jak i pełnym.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"