Hur länge kan jag räkna med över 90 procents rabatt på mina tokens? #

Under april och maj har mina två AI-agenter, Claude Code och Pi, tillsammans hanterat nästan en miljard tokens. Skulle jag betalat för dem “i lösvikt”, det vill säga per token, skulle prislappen hamnat strax under 5000 kronor. Det jag faktiskt betalat är istället runt 1800 kronor.

Största delen, 1500 kronor, har gått till OpenRouter där jag betalar per token. Skillnaden mellan vad agent-användningen kostat mig och vad jag fått för pengarna ligger i mitt månadsabonnemang på Claude: För 300 kronor använde jag under april och maj tokens till ett värde av ungefär 3800 kronor.

Överslagskalkylen är gjord med Ccusage. Att abonnemanget var en bra affär är ingen överraskning. Men att skillnaden var så stor hade jag inte trott.

Ccusage hittade jag via ett blogginlägg hos Simon Willison i veckan. I samma text gräver han vidare i de rabatter som abonnemangen hos Anthropic och OpenAI innebär i jämförelse med lösvikts-token och landar i en intressant slutsats:

As of April 2026 the “Enterprise” cost for both OpenAI Codex and Anthropic Claude Code/Cowork is the same as the listed API price. [...] April saw both leading model companies release new frontier models with a higher API price, and both companies now have measures to lock their enterprise customers (who tend to sign year-long deals) at those API prices, not the previous extreme discounts.

Det här tangerar det jag skrev om i förra veckan:

Mitt i det här snabbrörliga fältet ska man på något sätt lyckas fatta beslut om vilken modell som är rätt för jobbet. I bland är det enkelt: En riktigt svår uppgift behöver den kraftfullaste modellen. Något som ska hantera känsliga uppgiften en som går att köra lokalt.

Men många uppgifter man vill lägga på en språkmodell befinner sig i en gråzon. Fram tills för några månader sedan var den enkla lösningen att skaffa ett månadsabonnemang hos Google, Anthropic eller OpenAI. Men snävare token-gränser och begränsningar vad gäller vilka verktyg som får användas med en prenumeration (som när Anthropic stängt ner för tredjepartstjänster) gör att det inte längre är lika enkelt.

En majoritet av de stora benchmarks som finns för att utvärdera modeller mäter deras kapacitet helt frikopplat från kostnaden att köra dem. Men det börjar också komma benchmarks som istället utvärderar hur mycket det kostar de olika modellerna att lösa specifika uppgifter. Artificial Analysis inkluderar den typen av siffror i sina modellanalyser. Kilo Code tittar på kostnaden för att använda modeller i OpenClaw, en tabell som placerar Gemma 4 26B i topp när den sorteras efter “cost per successful task”. Och OpperAI har en “real-world benchmark”.

Det intressanta är att de öppna modellerna blir allt mer konkurrenskraftiga när kostnaden är en faktor i utvärderingen. I min omvärldsbevakning har bland annat rapporter om ett stort, men anonymt, företag som brände 500 miljoner på tokens under en månad dykt upp:

An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing to put usage limits on Claude licenses for employees.

Samtidigt som det också börjar dyka upp exempel som det här:

Vi droppede de dyre licenser og koblede open-weight-modeller (Gemma/Mistral) på via Scaleways Model as a Service. Selve brugerfladen strikkede vi sammen som en skræddersyet chatbot på knap en dag. [...] Vi betaler kun for reelt token-forbrug. Den årlige udgift for 80 brugere er dykket fra ~200.000 kr. til under 10.000 kr. – Jannik William Frederiksen, Head of IT, Coop Bank.

Stora språkmodeller och de tokens de producerar är verkligen inte “one size fits all”. Utvecklingen av prissättning, hårdvara och öppna modeller visar tydligt att vi är på väg åt ett håll där storanvändare av tokens behöver göra rejäla analyser för att fatta ekonomiskt och ur andra hållbarhetsperspektiv vettiga beslut.