Hej!
Efter en intensiv start på hösten har det äntligen funnits tid att tänka lite i bloggformat igen – om att använda stora språkmodeller via tredjepartslösningar istället för som färdigpackade tjänster från de stora AI-labben och om allt kraftfullare små språkmodeller.
Det här är två parallella utvecklingslinjer som är värdefulla att hålla ögonen på. Genom att använda verktyg som OpenWebUI eller LM Studio får man bättre kontroll både över innehållet i sina chattkonversationer och vilka modeller som används.
Dagarna efter OpenAI’s lansering av GPT-5 handlade mycket om modellen i sig, men också om hur den integrerades i tjänsten ChatGPT. Många uttryckte frustration över förändringar som OpenAI hade gjort, som möjligheten att själv välja exakt vilken modell man chattade med.
Modellvalet gissar jag framöver allt oftare kommer hamna på en mindre språkmodell, både av hållbarhets- och dataskyddsaspekter. Min egen erfarenhet är att de stadigt blir bättre och bättre, och Nvidia ser samma utveckling. I OpenWebUI (som jag kör på en egen server tillsammans med ett gäng andra verktyg) har jag tillgång till GPT-5, Claude och Gemini, men också ett gäng mindre modeller som antingen är billigare eller så mycket mindre att jag kan göra dem på egen hårdvara här hemma. Vilket är utmärkt för vissa uppgifter där jag inte vill skicka mina prompter till en server på nätet.
Nvidia-texten är läsvärd. Inte en peer-reviewad publicering, men innehåller många resonemang som intuitivt känns rimliga:
While LLMs offer impressive generality and conversational fluency, the majority of agentic subtasks in deployed agentic systems are repetitive, scoped, and non-conversational—calling for models that are efficient, predictable, and inexpensive. In this context, SLMs not only suffice, but are often preferable. They offer several advantages: lower latency, reduced memory and computational requirements, and significantly lower operational costs, all while maintaining adequate task performance in constrained domains.
Och apropå prompter. För något år sedan pratades det mycket om att prompt engineering var ett övergående begrepp, att modellerna snart skulle vara så smarta att de förstod vad användaren ville ha utfört utan detaljerade instruktioner. Några färska filmer på Anthropics YouTube-kanal antyder motsatsen. Som den här, där de jobbat med ett icke namngivet svenskt försäkringsbolag för att bygga en lösning som hanterar blanketter om trafikolyckor.
På återhörande!
/Anders