12개 노드 96대 H100 GPU로 PD 분리·대규모 EP를 적용해 초당 입력 52.3k·출력 22.3k 토큰 처리 성능을 달성.
개발비용은 100만 출력 토큰당 0.20달러로 공식 DeepSeek API보다 5배 저렴하게 운영 가능.
PD 분리로 프리필·디코드 단계 최적화하고 EPLB·DeepGEMM·DeepEP 통합으로 메모리 효율·균형성 개선.
Get notified when new stories are published for "해커뉴스 🇰🇷 한국어"