Måling af tænkeeffektivitet i AI-ræsonnementsmodeller

1

Lukkede modeller er optimeret til færre tokens og er mere omkostningseffektive end åbne modeller.

2

Åbne vægt-modeller bruger typisk 1,5–4× flere tokens end lukkede modeller og op til 10× flere til simple vidensspørgsmål.

3

Tokenforbruget afhænger af opgavetype med størst effektivitetsgab i vidensspørgsmål, mindre i matematik og logik.

4

OpenAI-modeller, særligt gpt-oss-120b, er førende i tokeneffektivitet, især i matematikopgaver.

5

Llama-3.3-nemotron-super-49b-v1 er den mest effektive åbne model før udgivelsen af gpt-oss, mens Magistral-modeller er ekstreme outliers med højt forbrug.

6

Matematikproblemer løses algoritmisk med næsten identisk tokenforbrug for original og modificerede problemer.

7

Logikopgaver afslører foruddannede bias, hvor modificerede problemer kræver længere Chain-of-Thought end standardversioner.

8

Gpt-oss-120b viser markante CoT-optimeringer med kortfattet sprog og reduceret formatering.

Måling af tænkeeffektivitet i AI-ræsonnementsmodeller

Subscribe to Similar Stories

Måling af tænkeeffektivitet i AI-ræsonnementsmodeller

Subscribe to Similar Stories