vLLM est un moteur d'inférence open source qui sert des LLM via des instances GPU orchestrées avec équilibrage de charge et vérification de santé.
Le serveur API OpenAI-compatible reçoit les requêtes HTTP et, via AsyncLLM, les convertit en tokens avant de les transmettre à EngineCore par IPC.
EngineCore utilise un scheduler pour le batching continu des requêtes selon un budget de tokens et gère le KV cache en blocs pour optimiser la mémoire GPU.
ModelExecutor et ModelRunner exploitent Ray et CUDA pour exécuter les passages avant (forward pass) sur GPU en parallèle, en utilisant FlashAttention pour l’attention des transformeurs.
Les tokens générés sont renvoyés à AsyncLLM pour la détokénisation et livrés au client, soit en mode streaming, soit en mode non-streaming.
Get notified when new stories are published for "🇫🇷 Hacker News Français"