4대 라즈베리파이5(8GB)에서 Qwen3 30B A3B Q40 모델 분산 추론을 시연했다.
평가 속도 14.33 토큰/초, 예측 속도 13.04 토큰/초를 기록했다.
분산 Llama 버전 0.16.0과 MoE 기반 아키텍처를 활용했다.
Get notified when new stories are published for "해커뉴스 🇰🇷 한국어"
No Sign-In needed. One-Click Subscribe.