TokenDaggerはOpenAIのTikTokenと完全互換の高速実装です。
通常トークナイザーと比べて2倍のスループットを実現します。
コードのトークン化では4倍の速度向上を達成しています。
PCRE2ベースの正規表現解析で効率的なトークンマッチングを行います。
シンプル化されたBPEアルゴリズムで大規模語彙の処理コストを削減します。
Python 3.8以上でpip install tokendaggerにより簡単に導入可能です。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"