vLLM V1 추론 요청 처리 흐름

vLLM V1은 OpenAI 호환 API 서버, AsyncLLM, EngineCore, Scheduler, ModelExecutor, ModelRunner, KVCacheManager 등으로 구성되어 대규모 LLM 추론을 효율적으로 처리합니다.

클라이언트의 HTTP 요청은 API 서버에서 AsyncLLM으로 전달되고, 비동기 IPC를 통해 EngineCore의 내부 큐에 저장됩니다.

Scheduler는 연속 배치 알고리즘으로 여러 요청의 프롬프트 처리(prefill)와 디코딩 단계를 토큰 예산(max_num_batched_tokens)에 맞춰 공평하게 배치합니다.

ModelRunner는 Ray 기반 분산 실행과 CUDA 최적화를 통해 GPU에서 배치된 토큰을 병렬로 처리하고, KVCacheManager는 고정 크기 블록 단위로 KV 캐시 메모리를 관리합니다.

디코딩 단계에서 생성된 다음 토큰은 로짓 기반 샘플링 또는 탐욕적 선택을 거쳐 생성되며, AsyncLLM은 이를 스트리밍 또는 비스트리밍 모드로 클라이언트에 전송합니다.

Get notified when new stories are published for "🇰🇷 Hacker News 한국어"

No Sign-In needed. One-Click Subscribe.