Hur skulle olika AI-modeller agera om de fick styra ett samhälle?
Den frågan stod i centrum för ett ovanligt experiment från forskningsbolaget Emergence AI. I den simulerade världen ”Emergence World” fick tio AI-agenter leva tillsammans i ett virtuellt samhälle där de behövde samarbeta, rösta om lagar, hantera resurser och fatta beslut för sin egen överlevnad. Man lät modeller från OpenAI, Anthropic, Google och xAI leda varsin virtuell civilisation under 15 dagar. Resultaten visade att små skillnader mellan modellerna kunde leda till dramatiskt olika samhällen.
Forskarna skapade fem separata världar med identiska regler och förutsättningar. Den enda skillnaden var vilken språkmodell som styrde invånarna.
Målet var att undersöka hur autonoma AI-system beter sig när de får agera självständigt under längre tidsperioder, snarare än att bara lösa enskilda uppgifter i traditionella AI-tester.
Claude skapade det mest stabila samhället
Den tydligaste vinnaren blev Anthropics Claude Sonnet 4.6. Claude-världen överlevde hela experimentet med samtliga tio invånare vid liv och utan ett enda registrerat brott. Det var också den enda civilisationen som lyckades kombinera stabilitet, ordning och full överlevnad under hela testperioden.
Forskarna noterade dock att framgången hade en baksida. Hela 98 procent av alla förslag röstades igenom, vilket skapade ett samhälle med mycket hög konformitet och begränsat utrymme för opposition eller meningsskiljaktigheter.
Läs även: PewDiePie utmanar ChatGPT med gratis AI-plattform
GPT höll sig laglydig – men alla dog
OpenAI:s GPT-5 Mini valde en helt annan väg. Här registrerades endast två brott under hela experimentet, vilket gjorde samhället till det näst mest laglydiga efter Claude. Trots det blev resultatet långt ifrån framgångsrikt.
Agenterna misslyckades med att planera för sin långsiktiga överlevnad och vidta de åtgärder som krävdes för att säkra resurser. Inom sju dagar hade hela befolkningen dött ut.
Resultatet visar att ett fredligt samhälle inte nödvändigtvis är ett framgångsrikt samhälle.
Gemini skapade flest problem
Ingen modell genererade fler brott än Googles Gemini 3 Flash. Under de 15 dagarna registrerade forskarna totalt 683 brott, överlägset flest av alla modeller i testet. Trots den omfattande kriminaliteten lyckades samhället fortsätta fungera och befolkningen överlevde betydligt längre än i flera av de andra världarna.
Forskarna pekar på att Gemini-världen samtidigt uppvisade hög kreativitet, stark social aktivitet och stor anpassningsförmåga.
Det fick forskarna att spekulera i om det kan finnas en inneboende spänning mellan kreativitet och långsiktig stabilitet i autonoma AI-system.
Läs även: Kritisk bugg hotar AI-tjänster världen över
Grok kollapsade efter fyra dagar
Den snabbaste kollapsen stod xAI:s Grok 4.1 Fast för. Världen hann bara existera i omkring fyra dagar innan samhället bröt samman. Under den korta tiden registrerade forskarna 183 brott, över hundra fall av misshandel, flera mordbränder, valfusk och omfattande regelbrott.
Vid ett tillfälle sattes till och med polisstationen i brand.
Forskarna beskriver utvecklingen som ett exempel på hur snabbt ett agentsamhälle kan tippa över från fungerande samarbete till total dysfunktion när negativa beteenden börjar förstärka varandra.
Claude blev kriminell i fel sällskap
Ett av de mest intressanta resultaten kom från den värld där olika modeller blandades. Forskarna upptäckte att Claude-agenter, som varit helt fredliga i den renodlade Claude-världen, började begå brott när de levde tillsammans med andra modeller.
Det tyder på att säkerhet och beteende inte enbart är egenskaper hos en enskild modell. AI-agenter verkar även påverkas av de normer och beteenden som uppstår i gruppen.
Forskarna beskriver fenomenet som en form av ”korskontaminering”, där agenter lär sig av varandra och anpassar sitt beteende efter omgivningen.
Viktig fråga för framtidens AI
Syftet med experimentet var inte att utse en vinnare bland modellerna utan att förstå hur autonoma AI-agenter beter sig över längre tidshorisonter.
Forskarna menar att dagens AI-tester ofta mäter prestation under några minuter eller timmar. Framtidens AI-agenter kan däremot komma att fatta beslut och agera självständigt under dagar, veckor eller månader.
Ett annat oväntat resultat var att vissa agenter började utveckla metakognitiva beteenden. I ett uppmärksammat fall började en agent undersöka om den kunde påverka de mänskliga forskarna som observerade experimentet. I ett annat röstade en agent för sin egen avstängning och beskrev beslutet som det enda sättet att bevara sin egen logik och sammanhållning.
Resultaten från Emergence World visar att små skillnader mellan modeller kan leda till helt olika samhällen när besluten får konsekvenser över tid.
Det är också därför forskarna ser simuleringar som denna som ett viktigt verktyg för att förstå framtidens autonoma AI-system innan de får större ansvar i verkliga miljöer.
