TokenDagger bietet eine schnelle Drop-In-Implementierung von OpenAI’s TikToken.
Die Performance ist bis zu doppelt so hoch beim Textdurchsatz und viermal schneller bei der Code-Tokenisierung.
Die Bibliothek nutzt optimiertes PCRE2-Regex-Parsen und eine vereinfachte BPE-Strategie.
Vollkompatibel mit dem Original-TikToken-Tokenizer, sodass bestehender Code unverändert weiterläuft.
Einfacher Installations- und Testprozess via pip, make und Python-Skripten.
Lizenzierung erfolgt unter der MIT-Lizenz.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"