Dags för journalister att läsa på om data voids

Vidvinkelfoto på en man som tittar på dig genom en kikare.

Data voids. Informationsluckor på nätet som utnyttjas av dem som vill sprida konspirationsteorier eller rykten. Journalister måste förstå hur de utnyttjas för att sprida dem, alla andra nätanvändare behöver reflektera över hur en sökmotor fungerar.

I veckans Digitalsamtal berättar forskaren Ulrika Hedman om svenska journalisters förhållningssätt till sociala medier. Själv brukar jag tjata om att journalister måste lära sig it-säkerhet, både för att skydda källor och sig själva. Men det finns fler aspekter av teknikutveckling och digitalisering som journalister – men egentligen alla internetanvändare – måste förstå.

En är data voids.

Första gången jag snubblade över begreppet var hösten 2018. Forskaren danah boyd (som bland annat grundat forskningsinstitutet Data & Society, väl värt att hålla koll på!) publicerade en lång text med rubriken Media Manipulation, Strategic Amplification, and Responsible Journalism. Nu har hon tillsammans med Michael Golebiewski skrivit ännu mer, ännu utförligare, om vad en ”datalucka” är, vilka konsekvenser de får och hur vi kan hantera dem: Data voids – Where Missing Data Can Easily Be Exploited.

Hur fungerar en sökmotor? #

Innan vi kommer in på vad en datalucka är, först helt kort om hur en sökmotor fungerar. Google, Bing, DuckDuckGo och alla de andra sökmotorerna består, väldigt förenklat, av tre delar:

Ett del som surfar runt på nätet och samlar in all information som det hittar.
En del som analysar det som samlas in.
Och så själva sökmotorn, där vi användare knappar in våra sökbegrepp, sökmotorn tittar igenom all information som samlats in och analyserats och återkommer blixtsnabbt med en lista med länkar för oss att klicka oss vidare till.

Sökmotorerna skriver inga egna texter, spelar inte in egna filmer, skriver inte egna inlägg i sociala medier. De länkar bara till sånt som publicerats på annat håll, av andra.

Vad är en datalucka? #

Av det här följer att hur bra länkarna i träfflistan är beror på hur bra det innehåll som sökmotorn hittat är. Det här är egentligen självklarheter, kanske sånt vi instinktivt förstår. Men det får konsekvenser:

Data voids exist because of an assumption baked into the design of search engines: that for any given query, there exists some relevant content. But this is simply not true. When search engines have little available content to return for a particular query, the “most relevant” content is likely to be low quality or problematic or both.

Sökmotorer kan bara jobba med innehåll som finns tillgängligt. Det som ligger överst måste inte vara ”bra”, bara ”bättre” än resten av det som finns tillgängligt. Men hur stor informationsmängd sökmotorn gallrar i tänker vi nog sällan på.

Kampen om att hamna högt i sökresultatet #

Det här informationsunderskottet på vissa söktermer går att utnyttja. Search engine optimization, SEO, har blivit en aktivitet, ja till och med en hel bransch, som syftar till att bygga webbplatser som hamnar så högt upp som möjligt i sökresultatet. Ju högre upp, desto större chans att någon klickar sig vidare. Värdefullt för alla som har en närvaro på webben, man vill ju ha trafik.

Men där SEO i första hand handlat om att hitta sätt att sticka ut i träfflistan för populära sökningar tar de som utnyttjar dataluckorna en annan väg. De hittar, eller skapar, sökningar där konkurrensen är låg, publicerar innehåll som därmed med lätthet hamnar högt i resultatlistan och får sedan nätanvändare att börja söka på just de begreppen.

Hur gör man då det?

Journalister måste vara vaksamma med vilka begrepp de använder? #

Här kommer journalisterna in. Ett sätt är nämligen att etablera nya begrepp som man sedan förmår journalister att skriva om, bland annat genom att använda trollkonton på Twitter som ställer ”läsarfrågor” till redaktionen där de här begreppen används. När läsarna sedan ser de här nya formuleringarna vänder de sig till nätet för att få veta mer. Och hamnar då i det ”riggade” sökresultatet.

Här går det för övrigt att göra en annan observation värdefull för journalister: Jag har sett diskussioner om hur Boris Johnsson på presskonferenser och i andra sammanhang använt formuleringar som när de citerats av journalister ”begravt” negativa artiklar om Johnson som använt samma begrepp, men egentligen handlat om helt andra saker.

Det finns ytterligare en annan aspekt som kopplar till arbetet på en redaktion:

Data voids are especially problematic for YouTube, which is working with far less data and using a recommendation engine to encourage users to stay on the site. /…/ Anywhere that a search or recommender system makes decisions based on public data, there is an opportunity for determined, data-literate manipulators to influence other users’ exposure to content.

I rapporten exemplifieras detta med hur antivaccin-kampanjer lätt får spridning på YouTube. Borde alltså fler redaktioner, myndigheter och andra som baserar sitt innehåll på fakta lägga upp det på YouTube för att förskjuta balansen på plattformen?

Fem typer av dataluckor #

I sin rapport lyfter boyd och Golebiewski fram fem olika typer av dataluckor som utnyttjas

Stora, pågående nyhetshändelser (inte minst om de har en geografisk koppling, en liten ort som det tidigare skrivits om)
Nya, strategiskt utvalda, formuleringar (exemplet ovan, där man först skriver innehåll med en ny formulering och sedan på olika sätt etablerar begreppet i det offentlig samtalet)
Gamla, numera oanvända, formuleringar (sökmotorer prioriterar ofta nyare material framför gammalt)
Fragmenterade idéer (där begrepp som till synes är synonymer som leder åt olika håll)
Problematiska söktermer (formuleringar som inte besvaras av mer trovärdiga källor, och därmed istället kan leda till konspirationsteorier och propaganda)

Större problem för svenska journalister? #

While this report focuses on the dynamics occurring in English on these sites, these problems are likely to be of even greater concern in non-English settings where there is even less data.

Eftersom storleken på problemet varierar med mängden tillgängligt innehåll är en logisk följd att det är lättare att hitta dataluckor att utnyttja på svenska än på engelska. Desto större anledning för svenska journalister att prata om detta alltså.

Foto: Evgeni Tcherkasski.