vLLM ist eine Open-Source-Inferenz-Engine, die große Sprachmodelle auf mehreren GPUs bereitstellt und den Datenverkehr über Lastverteilung steuert.
Eine Anfrage durchläuft den OpenAI-kompatiblen API-Server, wird von AsyncLLM tokenisiert und per asynchronem IPC an den EngineCore gesendet.
Der EngineCore verwaltet eine Scheduler-Komponente, die Anfragen kontinuierlich in Token-Batches organisiert, um die GPU-Auslastung zu maximieren und Fairness zu gewährleisten.
ModelExecutor und ModelRunner laden das Modell auf GPU-Worker und führen Forward-Passes mit FlashAttention für effiziente Matrixberechnungen durch.
Der KVCacheManager verwaltet den GPU-Speicher für Schlüssel- und Wert-Tensoren in festen Blöcken, um Speicherallokationen zu optimieren.
Nach der Modellausführung streamt AsyncLLM die generierten Token zurück an den API-Server, der sie an den Client liefert.
Die asynchrone Architektur umgeht den Python-GIL, um CPU- und GPU-intensive Aufgaben parallel auszuführen und so den Durchsatz zu steigern.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"