Billig interferens, normalfördelningskurvor och balansen mellan kreativitet och tillförlitlighet

Chattbottar är inte färdiga produkter, de är verktyg. Och klivet till produkt kräver både en förståelse för användarnas behov och möjlighet att tämja de kreativa dragen hos en LLM.

Kan statistik hjälpa till att hitta en balans mellan kreativitet och tillförlitlighet?

Det här är egentligen en halvfärdig tanke som jag inte riktigt lyckas plocka hem, men jag ville ändå få ner den här:

På AI Snake Oil finns ett intressant resonemang om hur man bygger produkter baserade på stora språkmodeller. Det finns ett par inbyggda utmaningar, som alla tar sin utgångspunkt i det faktum att språkmodeller är probabilistiska och inte deterministisk. Det vill säga att språkmodeller inte följer regler, utan bygger på statistik, att de genererar statistiskt rimlig output.

Ibland är det här precis vad vi vill ha, om det är en kreativ arbetsuppgift vi sitter med. Sätta en bra rubrik, utforska olika scenarion, komma på motargument till ett påstående och liknande.

Andra gånger är det verkligen inte kreativitet vi är ute efter. Vi vill ha ett faktasvar vi kan lita på eller en sammanfattning av en lång rapport som inte innehåller några så kallade hallucinationer. Och det är här det probabilistiska blir ett problem:

For now, it’s fundamentally an open question whether it’s possible to build deterministic systems out of stochastic components (LLMs). Some companies have claimed to have solved reliability — for example, legal tech vendors have touted “hallucination-free” systems. But these claims were shown to be premature.

Så vad kan man göra istället? Kanske använda statistik, igen:

repeatedly retrying a task tens, thousands, or even millions of times turns out to be a good way to improve the chances of success, given the randomness of LLMs.

Genom att generera många svar och sen använda ett snitt av dem så lägger man lite band på kreativiteten. Men ska man bygga tjänster som inte genererar output från en LLM en gång utan många krävs en teknikutveckling som sänker priset på interferens, det vill säga att använda en språkmodell.

En bättre förståelse för användarnas behov är också en nödvändighet. Vilket egentligen är huvudpoängen i texten.

The generality of LLMs allowed developers to fool themselves into thinking that they were exempt from the need to find a product-market fit, as if prompting a model to perform a task is a replacement for carefully designed products or features.

Chattbottarna som sådana, ChatGPT och Claude, är inte produkter eller tjänster. De är verktyg. Alla diskussioner om "prompt engineering" sedan hösten 2022 är egentligen diskussioner om produktutveckling, att snäva av, tydliggöra, fokusera vad det är språkmodellen ska användas till. Ibland behöver de vara kreativa, ibland inte.