Ροή Αιτήματος Inference Στο VLLM V1

1

vLLM είναι ένα ανοιχτού κώδικα engine παροχής inference για μεγάλα γλωσσικά μοντέλα.

2

Τα αιτήματα υποβάλλονται μέσω ενός OpenAI-compatible API server που επικοινωνεί με τον AsyncLLM.

3

Ο Scheduler ομαδοποιεί τα αιτήματα με συνεχιζόμενη ομαδοποίηση για βέλτιστη χρήση GPU.

4

Ο EngineCore εκτελεί έναν διαρκή βρόχο εργασιών για προγραμματισμό και forward pass του μοντέλου.

5

Ο ModelExecutor και οι ModelRunners χρησιμοποιούν Ray και GPU για την εκτέλεση των transformer layers και τη διαχείριση του KV cache.

6

Τα παραγόμενα tokens επιστρέφουν μέσω IPC στο AsyncLLM, αποτοκενίζονται και στέλνονται streaming ή ως τελικό αποτέλεσμα.

7

Κάθε στοιχείο της αρχιτεκτονικής διασφαλίζει υψηλή απόδοση και κλιμάκωση στην εξυπηρέτηση αιτήσεων inference.