Alla tokens gör inte samma jobb – hur hittar jag de som är mest prisvärda för mig?

Fråga till er som köper tokens via API: Har ni några bra metoder för att hitta rätt modell för vad jobbet nu är?

Bara under de senaste sju dagarna har tre nya modeller dykt upp på OpenRouter: I tisdags Gemini 3.5 Flash. I onsdags Grok Build 0.1. Och i torsdags Qwen 3.7 Max. Sedan årsskiftet har antalet modeller som OpenRouters kunder kan välja bland ökat med drygt 100 stycken.

Och även om modellsläppen är det som får störst uppmärksamhet i AI-rapporteringen tas stora kliv i andra relaterade områden också. På hårdvarusidan, så klart, där AMDs senaste uppdateringar av företagets lösningar för lokal inferens är ett exempel. Och någonstans mellan nya modeller och ny hårdvara har vi saker som DwarfStar 4, ett öppenkällkods-projekt helt inriktat på att få DeepSeek V4 Flash att köra så effektiv som möjligt på lokal hårdvara.

Uttryckt på ett annat sätt springer utvecklingen just nu på i två parallella spår. Det ena är de allra mest kraftfulla modellerna som bara går att komma åt via API från en leverantör på nätet. Och strax där bakom nästan lika kraftfulla modeller möjliga att köra lokalt.

Mitt i det här snabbrörliga fältet ska man på något sätt lyckas fatta beslut om vilken modell som är rätt för jobbet. I bland är det enkelt: En riktigt svår uppgift behöver den kraftfullaste modellen. Något som ska hantera känsliga uppgiften en som går att köra lokalt.

Men många uppgifter man vill lägga på en språkmodell befinner sig i en gråzon. Fram tills för några månader sedan var den enkla lösningen att skaffa ett månadsabonnemang hos Google, Anthropic eller OpenAI. Men snävare token-gränser och begränsningar vad gäller vilka verktyg som får användas med en prenumeration (som när Anthropic stängt ner för tredjepartstjänster) gör att det inte längre är lika enkelt.

Kilo, en öppen AI-agent precis som Pi, resonerade kring den här snabba utvecklingen i ett blogginlägg i slutet av april:

I don’t know where Anthropic, OpenAI, or SpaceX will be in two years, and neither does anyone else. So the move isn’t to pick the winner. It’s to make sure being wrong is cheap.

Ett sätt att hålla kostnaden för fel nere är att inte låsa in sig och därmed fast sig i ett ekosystem redan nu.

I flera av mina projekt kör jag Claude Code och Pi parallellt. Claude, via månadsabbonemang, står för planering, svårare uppgifter och kontroll av koden. Pi tillsammans med enklare modeller där jag betalar för token står för bulken av kod-skrivandet. Magkänslan är att det just nu är det ekonomiskt smartaste sättet att jobba på, samtidigt som det också ställer krav på ett slags kontinuerligt utforskande. Vilket är positivt i sig.

Men vilken är rätt modell för Pis del i det hela? Modellerna prissätts per token, en prislapp för de tokens agenter skickar och en annan för det som språkmodellen levererar tillbaka. Problemet från ett användarperspektiv är att “intelligensinnehållet” i ett token inte är det samma för alla modeller. Lågt pris per token behöver inte betyda lågt pris per uppgift:

Artificial Analysis publish the cost to run their proprietary benchmark against models, which is a useful way to take things like tokenization and increased volume of reasoning tokens into account. Some numbers worth comparing:

Gemini 3.5 Flash (high): $1,551.60 Gemini 3.1 Pro Preview: $892.28 Gemini 3 Flash Preview (Reasoning): $278.26 Gemini 3.1 Flash-Lite Preview: $93.60

(Gemini 3.5 Flash: more expensive, but Google plan to use it for everything, Simon Willison.)

Men att en webbplats som Artificial Analysis kan göra den här typen av jämförelser mot standardiserade benchmarks är en sak. Större organisationer har – och bör – utnyttja samma möjlighet.

Frågan är vad man som enskild användare gör? Hur hittar jag rätt modell för jobbet, när “jobbet” är så många olika saker (programutveckling, idéarbete, textkritik och annat) och prissättningen i slutänden är betydligt mer komplex än bara “kostnad per token”? Kostnad, hur mycket “intelligens” som varje token representerar och hur många som behövs för att bli klar med uppgiften. Många variabler blir det.

Om det finns färdiga ramverk eller annat för personliga benchmarks är jag mer än tacksam för att få tips om dem!

Alla tokens gör inte samma jobb – hur hittar jag de som är mest prisvärda för mig?

Vill du läsa mitt nyhetsbrev?