vLLM V1 架构由 AsyncLLM、EngineCore、Scheduler、ModelExecutor、ModelRunner 和 KVCacheManager 等组件组成,协同处理推理请求。
请求从 OpenAI 兼容 API 服务器接收后,由 AsyncLLM 异步进行令牌化并通过 IPC 提交到 EngineCore。
Scheduler 使用连续批处理算法,在固定令牌预算内公平调度多请求,以最大化 GPU 利用率。
ModelRunner 在 GPU 上执行前向传递,使用 FlashAttention-3 算法并并行计算 K、V、Q 张量。
KVCacheManager 将 KV 缓存分块管理,动态分配 GPU 内存,避免大块连续内存申请。
异步输出处理模块对生成令牌进行去令牌化,并支持非流式与流式模式下的实时返回。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"