Il server API riceve la richiesta, la autentica e la inoltra ad AsyncLLM per l’elaborazione iniziale.
AsyncLLM esegue la tokenizzazione del prompt e invia la richiesta all’EngineCore tramite comunicazione inter-processo asincrona.
EngineCore utilizza il Scheduler per raggruppare più richieste in batch continui, ottimizzando l’utilizzo della GPU.
ModelExecutor e ModelRunner coordinano il caricamento del modello e l’esecuzione dei forward pass sui CUDA core.
KVCacheManager gestisce la memoria GPU organizzando i tensori di attenzione in blocchi fissi per efficienza.
I token generati vengono detokenizzati da AsyncLLM e trasmessi in streaming al client tramite il server API.
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"