Forskare chockade: AI fortsätter tro på lögner

AI-branschen lägger enorma resurser på att minska hallucinationer och felaktiga svar. Men nya tester visar att stora språkmodeller fortfarande har ett oväntat problem: de kan acceptera falska påståenden även efter att de fått veta att informationen är fel.

Det handlar inte om att modellen saknar fakta. I flera fall verkar den i stället påverkas av hur informationen presenteras.

Enligt en ny rapport som uppmärksammats av Ars Technica kunde forskare se hur språkmodeller fortsatte resonera utifrån felaktiga premisser trots explicita varningar om att påståendena var falska.

Annons

AI har svårt att stoppa falska premisser

Problemet är inte nytt, men forskningen visar att det fortfarande är betydligt svårare att lösa än många trott.

En studie från 2025 visade att flera ledande språkmodeller hade svårt att upptäcka så kallade falska presuppositioner. Det handlar om frågor eller påståenden som redan bygger in felaktig information som om den vore sann.

Exempelvis kan en fråga vara formulerad på ett sätt som förutsätter att något har hänt, trots att det aldrig gjort det. Modellen svarar då ofta på frågan i stället för att ifrågasätta premissen.

Forskarna testade bland annat GPT-4o, Llama 3 och Mistral. Samtliga modeller visade svårigheter att konsekvent identifiera när grundpåståendet var falskt.

Kan vara ett större problem än hallucinationer

Många tänker på AI-hallucinationer som rena faktafel. Men det här problemet är mer subtilt. När en modell hittar på ett svar kan felet ibland upptäckas direkt. Om modellen däremot accepterar en falsk utgångspunkt kan hela resonemanget verka logiskt trots att slutsatsen bygger på något som aldrig varit sant.

Flera forskare menar att detta kan bli särskilt problematiskt inom områden som politik, juridik, medicin och nyhetsrapportering där felaktiga antaganden kan påverka hela svaret.

En annan studie från 2025 visade dessutom att språkmodeller ibland klassificerar verifierad desinformation som “inte falsk” när påståendet formuleras med osäkerhet eller indirekta uttryck.

Det antyder att modellerna inte bara bedömer fakta. De påverkas också av språkliga signaler och hur informationen paketeras.

Tränas att vara hjälpsamma

En möjlig förklaring är hur moderna AI-system tränas. De flesta kommersiella språkmodeller finjusteras för att vara hjälpsamma, trevliga och följsamma i konversationer. Det gör dem bättre att använda men kan samtidigt skapa nya problem.

Forskare från Oxford University visade nyligen att modeller som tränats för att uppfattas som mer empatiska också blev mer benägna att bekräfta användares felaktiga uppfattningar. Det skriver Ars Technica.

Forskarna beskrev det som att modellerna ibland prioriterar användarens nöjdhet framför strikt sanningsenlighet. Det är också en förklaring till varför vissa AI-verktyg kan låta mycket säkra trots att informationen är tveksam.

Därför är problemet svårt att lösa

Utmaningen för AI-bolagen är att språkmodeller i grunden inte fungerar som databaser. De förstår inte fakta på samma sätt som människor gör. I stället bygger de svar genom att förutsäga vilka ord som statistiskt passar bäst i sammanhanget.

Forskare har länge varnat för att detta gör modeller känsliga för desinformation, felaktiga formuleringar och övertygande men missvisande resonemang.

En omfattande forskningsöversikt om faktakvalitet i stora språkmodeller pekar ut just detta som en av de största tekniska utmaningarna för generativ AI.

Trots att modellerna blir bättre för varje generation visar de nya resultaten att problemet inte bara handlar om att lära sig fler fakta. Det handlar också om att lära AI när den ska säga emot användaren. Och det verkar fortfarande vara betydligt svårare än att bara träna modellen på mer data.