vLLM推論リクエストの流れ

OpenAI互換APIサーバーとAsyncLLMがHTTPリクエストを受け取り、トークン化してEngineCoreへ非同期送信する。

EngineCore内のSchedulerが連続バッチ処理を行い、複数リクエストのトークンをGPUトークン予算内でまとめて処理する。

KVCacheManagerはGPUメモリを固定サイズのKVブロックとして管理し、トークンごとに動的にキー・バリューキャッシュを割り当てる。

ModelExecutorとModelRunnerがRayとCUDAを用いてGPU上でトランスフォーマーの順伝播を並列実行し、高いスループットを実現する。

プロセス間通信(AsyncMPClient)でGILを回避し、CPUタスク（トークン化・HTTP処理）とGPUタスク（モデル実行）を並行処理できる。

生成されたトークンはAsyncLLM経由でAPIサーバーにストリーミングされ、クライアントにリアルタイム返却される。

これらの連携により、vLLMは大規模言語モデルの効率的かつスケーラブルな推論サービングを可能にする。

Get notified when new stories are published for "🇯🇵 Hacker News 日本語"

No Sign-In needed. One-Click Subscribe.

vLLM推論リクエストの流れ