vLLM İstek Yaşam Döngüsü

1

vLLM’in OpenAI uyumlu API sunucusu gelen HTTP isteklerini AsyncLLM katmanına ileterek tokenizasyon ve asenkron IPC iletişimini yönetir.

2

AsyncLLM, metni token ID’lerine dönüştürüp AsyncMPClient üzerinden EngineCore’a gönderir.

3

EngineCore içindeki Scheduler, istekleri sürekli toplu işleme algoritmasıyla GPU token bütçesine göre gruplar.

4

KVCacheManager GPU belleğinde KV bloklarını (sayfalarını) yöneterek anahtar-değer önbelleğini dinamik olarak ayırır.

5

ModelExecutor ve ModelRunner, seçilen istekleri birleştirip GPU’da ileri geçiş (forward pass) ile Transformer katmanları üzerinden paralel olarak çalıştırır.

6

Üretilen tokenlar EngineCore’dan AsyncLLM’e dönerek detokenize edilir ve API sunucusu aracılığıyla akış halinde istemciye gönderilir.

vLLM İstek Yaşam Döngüsü

Subscribe to Similar Stories