Luminal leverer ekstremt hurtig deep learning ved hjælp af search-baseret kompilering.
Alle beregningsudtryk bygger en statisk graf, der kompilieres forud for kørsel.
Biblioteket er skrevet i Rust med direkte adgang til CUDA og Metal uden abstraherende lag.
Det anvender et RISC-stil sæt af 12 primitive operationer, som sammensættes til komplekse GPU-kernels.
Luminal kan køre Q8 Llama 3 8B på M-serie MacBooks med 15–25 tokens pr. sekund.
Projektet er licenseret under Apache-2.0 og MIT.
Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"