vLLM V1์ OpenAI ํธํ API ์๋ฒ, AsyncLLM, EngineCore, Scheduler, ModelExecutor, ModelRunner, KVCacheManager ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์ด ๋๊ท๋ชจ LLM ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
ํด๋ผ์ด์ธํธ์ HTTP ์์ฒญ์ API ์๋ฒ์์ AsyncLLM์ผ๋ก ์ ๋ฌ๋๊ณ , ๋น๋๊ธฐ IPC๋ฅผ ํตํด EngineCore์ ๋ด๋ถ ํ์ ์ ์ฅ๋ฉ๋๋ค.
Scheduler๋ ์ฐ์ ๋ฐฐ์น ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฌ๋ฌ ์์ฒญ์ ํ๋กฌํํธ ์ฒ๋ฆฌ(prefill)์ ๋์ฝ๋ฉ ๋จ๊ณ๋ฅผ ํ ํฐ ์์ฐ(max_num_batched_tokens)์ ๋ง์ถฐ ๊ณตํํ๊ฒ ๋ฐฐ์นํฉ๋๋ค.
ModelRunner๋ Ray ๊ธฐ๋ฐ ๋ถ์ฐ ์คํ๊ณผ CUDA ์ต์ ํ๋ฅผ ํตํด GPU์์ ๋ฐฐ์น๋ ํ ํฐ์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๊ณ , KVCacheManager๋ ๊ณ ์ ํฌ๊ธฐ ๋ธ๋ก ๋จ์๋ก KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ด๋ฆฌํฉ๋๋ค.
๋์ฝ๋ฉ ๋จ๊ณ์์ ์์ฑ๋ ๋ค์ ํ ํฐ์ ๋ก์ง ๊ธฐ๋ฐ ์ํ๋ง ๋๋ ํ์์ ์ ํ์ ๊ฑฐ์ณ ์์ฑ๋๋ฉฐ, AsyncLLM์ ์ด๋ฅผ ์คํธ๋ฆฌ๋ฐ ๋๋ ๋น์คํธ๋ฆฌ๋ฐ ๋ชจ๋๋ก ํด๋ผ์ด์ธํธ์ ์ ์กํฉ๋๋ค.
Get notified when new stories are published for "๐ฐ๐ท Hacker News ํ๊ตญ์ด"