Samma prompt, olika resultat – se jämförelsen här

En ny video som sprids på Instagram jämförs två av marknadens mest avancerade AI-modeller för videogenerering; Googles Omni och ByteDances Seedance 2.0.

Båda modellerna får exakt samma uppgift. Att skapa en actionsekvens där ett skelett utför en serie boxningsrörelser. Resultatet har väckt diskussion eftersom skillnaderna blir tydliga när videorna spelas sida vid sida.

View this post on Instagram

A post shared by Orana Labs (@orana.ai)

Annons

I jämförelsen framstår Seedance 2.0 som den starkare modellen. Rörelserna ser mjukare ut, kroppens anatomi håller ihop bättre genom sekvensen och kamerarörelserna får ett mer filmiskt uttryck.

Googles Omni klarar uppgiften, men videon visar samtidigt flera av de utmaningar som fortfarande finns inom AI-video. Bland annat mindre naturliga rörelser och en känsla av att karaktären ibland tappar fysisk trovärdighet under snabba rörelsemoment.

AI-video handlar allt mer om fysik

För bara ett par år sedan var det imponerande om en AI kunde skapa några sekunder video över huvud taget. I dag har konkurrensen flyttats till betydligt mer avancerade områden. Modellerna måste förstå hur kroppar rör sig, hur olika objekt påverkar varandra och hur en scen ska förbli konsekvent från bildruta till bildruta.

Det är just därför boxningssekvensen blivit ett intressant test.

Snabba slag, kroppsvridningar och komplexa rörelsemönster är betydligt svårare att generera än exempelvis en person som går längs en gata eller står stilla framför kameran.

När rörelserna blir mer avancerade avslöjas ofta modellernas svagheter.

Vad är egentligen Seedance 2.0?

Seedance 2.0 är utvecklad av ByteDance, företaget bakom TikTok. Modellen presenterades tidigare i år och har snabbt fått uppmärksamhet inom AI-världen.

ByteDance har satsat stora resurser på att konkurrera med aktörer som Google, OpenAI och andra ledande AI-bolag. Seedance är företagets mest avancerade videosystem hittills och är byggd för att skapa längre, mer sammanhängande videosekvenser med bättre kontroll över karaktärer och miljöer.

En av modellens största styrkor är att den verkar ha blivit betydligt bättre på att hantera rörelser och bibehålla konsekvens mellan bildrutorna, två områden som länge varit stora problem för AI-genererad video.

Google vill bygga ett komplett AI-ekosystem

Google arbetar samtidigt med flera olika AI-modeller för både bild, video och multimodala uppgifter.

Omni är en del av den bredare satsningen där Google försöker skapa AI-system som kan förstå och generera flera typer av innehåll samtidigt.

Även om Omni inte framstår som vinnaren i just den här jämförelsen visar utvecklingen hur snabbt konkurrensen hårdnar. För bara ett år sedan hade många av dagens resultat betraktats som science fiction.

Den verkliga tävlingen har precis börjat

Det mest intressanta med videon är kanske inte vilken modell som vinner just detta test.

Istället visar jämförelsen hur AI-video nu gått in i en ny fas. Nästan alla ledande modeller kan skapa imponerande klipp från en textprompt. Det som skiljer dem åt är hur väl de förstår rörelse, fysik och kontinuitet.

Det är också dessa egenskaper som kommer avgöra vilka modeller som används för framtidens reklamproduktion, filmskapande, spelutveckling och innehåll på sociala medier.

Om den här jämförelsen är representativ för utvecklingen just nu har ByteDance tagit ett steg närmare Google i kampen om AI-videons framtid.