Gemma 3n: mobiele multimodale AI op randapparaten

1

Gemma 3n is een mobiele multimodale AI-architectuur die beeld, audio, video en tekst ondersteunt op randapparaten.

2

Beschikbaar in twee compacte varianten: E2B (5B effectieve parameters, draaibaar met ~2 GB geheugen) en E4B (8B parameters, ~3 GB geheugen).

3

MatFormer-architectuur maakt geneste modellen mogelijk, zodat je kunt wisselen tussen of mixen van modelgroottes voor optimale prestaties.

4

Per-Layer Embeddings vermindert de hoeveelheid hoogsnelheidsgeheugen die nodig is, door een deel van de parameters efficiënt op de CPU te laden.

5

KV Cache Sharing versnelt de verwerking van lange contexten, wat de reactietijd bij streaming multimodale input verdubbelt.

6

Geïntegreerde audio-encoder (USM) ondersteunt spraak-naar-tekst en spraakvertaling direct op het apparaat.

7

Nieuwe vision-encoder MobileNet-V5-300M biedt real-time beeld- en videoverwerking met hoge snelheid en geringe geheugenvoetafdruk.

8

Brede ondersteuning in tooling en platforms zoals Hugging Face, llama.cpp, Google AI Edge, NVIDIA en meer.

9

Lancering van een Impact Challenge met $150.000 aan prijzen om toepassingen voor de echte wereld te stimuleren.