OpenAI互換APIサーバーとAsyncLLMがHTTPリクエストを受け取り、トークン化してEngineCoreへ非同期送信する。
EngineCore内のSchedulerが連続バッチ処理を行い、複数リクエストのトークンをGPUトークン予算内でまとめて処理する。
KVCacheManagerはGPUメモリを固定サイズのKVブロックとして管理し、トークンごとに動的にキー・バリューキャッシュを割り当てる。
ModelExecutorとModelRunnerがRayとCUDAを用いてGPU上でトランスフォーマーの順伝播を並列実行し、高いスループットを実現する。
プロセス間通信(AsyncMPClient)でGILを回避し、CPUタスク(トークン化・HTTP処理)とGPUタスク(モデル実行)を並行処理できる。
生成されたトークンはAsyncLLM経由でAPIサーバーにストリーミングされ、クライアントにリアルタイム返却される。
これらの連携により、vLLMは大規模言語モデルの効率的かつスケーラブルな推論サービングを可能にする。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"