vLLM’in OpenAI uyumlu API sunucusu gelen HTTP isteklerini AsyncLLM katmanına ileterek tokenizasyon ve asenkron IPC iletişimini yönetir.
AsyncLLM, metni token ID’lerine dönüştürüp AsyncMPClient üzerinden EngineCore’a gönderir.
EngineCore içindeki Scheduler, istekleri sürekli toplu işleme algoritmasıyla GPU token bütçesine göre gruplar.
KVCacheManager GPU belleğinde KV bloklarını (sayfalarını) yöneterek anahtar-değer önbelleğini dinamik olarak ayırır.
ModelExecutor ve ModelRunner, seçilen istekleri birleştirip GPU’da ileri geçiş (forward pass) ile Transformer katmanları üzerinden paralel olarak çalıştırır.
Üretilen tokenlar EngineCore’dan AsyncLLM’e dönerek detokenize edilir ve API sunucusu aracılığıyla akış halinde istemciye gönderilir.
Get notified when new stories are published for "🇹🇷 Hacker News Türkçe"