Fyra lärdomar från ett dåligt råd om biltvätt

Ska jag gå eller köra till biltvätten? Min son fick fel svar av ChatGPT. Jag fick rätt av Claude. Skillnaden säger en hel del om de stora språkmodellerna och om vad som krävs av oss som använder den.

“Jag vill tvätta min bil. Biltvätten ligger 50 meter bort. Ska jag gå eller köra?”

Frågeställningen har dykt upp i mina flöden ett par gånger under veckan.

“Köra” tänker du säkert.

Men det handlar så klart inte om hur en människa besvarar frågeställningen, utan hur de stora språkmodellerna tar sig an den.

När jag såg frågan första gången hoppade jag över till Claude och fick ett kort och tydligt svar tillbaka.

“Kör. Du ska ändå ha bilen där.”

Min förhastade slutsats var att exemplen i mina flöden på sociala medier inte visade hela sanningen. Att det fanns instruktioner tidigare i chatten som instruerade modellen att svara fel, eller något annat.

Men på tåget hem från några sportlovsdygn tillsammans i Stockholm höll min son plötsligt fram sin mobiltelefon, med ChatGPTs svar på frågan:

ChatGPT i gratisversion svarar fel på frågan.

En potentiellt avgörande skillnad är att han använde gratisversionen av ChatGPT (precis som jag gjort i skärmdumpen ovan), medan jag hade testat från mitt betalkonto hos Anthropic med den senaste versionen av deras bästa modell Opus. Så jag testade med fler modeller. Ju mindre och äldre, desto större sannolikhet att svaret blir fel.

Vill du läsa mitt nyhetsbrev?

Bortom att vara ytterligare ett exempel i en lång rad där språkmodellerna gör skrattretande enkla misstag finns det åtminstone fyra lärdomar att dra.

Mellan gratismodeller och betalkonton växer en ny digital klyfta fram #

Den första handlar om tillgången till de bästa modellerna. Det går att använda ChatGPT, Claude och Gemini utan att betala, men då får man nöja sig med enklare eller äldre modeller. Och när jag byter från Opus 4.6 till Opus 3 är Claude lika snett på det som gratisvarianten av ChatGPT. För varje nytt modellsläpp flyttas förmågorna framåt, men att få tillgång till det klivet kostar pengar.

Digitala klyftor är ingen nyhet, men det finns all anledning att påminna sig om att de existerar även här.

Domänkunskap behövs fortfarande #

Att upptäcka ett felaktigt råd om färdmedel till biltvätten är en sak. Men om vi generaliserar det exemplet hamnar vi i ett annat läge. Under de senaste veckorna har jag ägnat en hel del tid att försöka förstå bland annat för- och nackdelar med olika väggkonstruktioner inför ett eventuellt husbygge. Det här är ett ämne jag inte kan något om alls. Claude är till stor hjälp, men jag påminner mig hela tiden om att jag är ute på tunn is och att jag behöver dubbelkolla svaren mot andra källor, ställa motfrågor, lägga in pålitliga dokument som bilagor i chattarna och så vidare.

Opus 3 svarar fel på frågan.

När jag använder Claude för att få feedback på texter jag skriver om sånt jag kan är mitt förhållningssätt till svaren jag får ett helt annat. Jag har försörjt mig på att skriva om teknik i snart 30 år och känner mig trygg i både hantverket och det mesta av själva faktainnehållet, vilket gör att jag kan värdera de språkliga förslagen och faktamässiga kommentarerna med ett annat självförtroende än när konversationen handlar om väggar.

Hantverkskunnande behövs också #

Men det där med motfrågor och andra knep att ta till i chattandet är också intressant i sig självt. Även med rätt modell och rätt domänkunskap vinner man på ett “hantverkskunnande” i den faktiska användningen av språkmodellerna. Även när jag har en känsla för vad rätt svar är brukar jag till exempel ställa öppna frågor för att språkmodellen inte bara ska välja att berömma mig för att jag redan visste hur något ligger till. Och när jag jobbar med sammanfattningar av större dokument brukar jag ta både sammanfattning och källa med in i en ny chatt: “Det här är en sammanfattning som en kollega skrivit av det bifogade dokumentet. Kan du kolla om min kollega gjort ett bra jobb eller om sammanfattningen missat något som är viktigt, om den innehåller faktafel, eller om det finns något annat som du reagerar på.”

Bygg agentiska flöden för kvalitetssäkring #

Och slutligen, för att knyta ihop säcken med de tre punkterna ovan, landar vi i AI-agenter, den stora hajpen just nu. Oftast pratas det om agenter i relation till programmering, men de kan användas till mycket annat också. Som att bygga nischade flöden för kvalitetssäkring.

I stället för att göra kontrollen av sammanfattningar manuellt går det att skapa ett flöde, exempelvis med ett verktyg som n8n, där den sker automatiskt:

Först en prompt som sammanfattar...
...och från den vidare till en prompt som kvalitetskollar sammanfattningen...
...och därefter antingen en ny vända för att förbättra eller, om den bedöms bra, skicka sammanfattningen tillbaka till användaren.