Når bykortet bliver vigtigere end prompten

De fleste videoer med kunstig intelligens kan se overbevisende ud, men de finder ofte bare på omgivelserne undervejs. Det er præcis det, Naver forsøger at løse med sin nye Seoul World Model, som The Decoder beskriver i dag. Modellen bygger ikke kun på tekst og et startbillede. Den er forankret i rigtige gader, rigtige koordinater og rigtige billeder fra byen.

💡 Det konkrete datagrundlag Naver har ifølge The Decoder bygget modellen på 1,2 millioner panoramabilleder fra Naver Map og trænet den med 440.000 Street View-billeder fra Seoul.

Det er mere interessant for danske virksomheder og offentlig sektor, end titlen først antyder. Når man arbejder med byrum, infrastruktur, logistik eller beredskab, er problemet sjældent at få en flot video. Problemet er at få en video, som stadig følger den rigtige geometri, når kameraet bevæger sig 100 meter eller 500 meter frem. The Decoder skriver, at Navers model klarede sig bedre end seks eksisterende world models på både billedkvalitet og tidslig konsistens, og at den også virkede i Busan og Ann Arbor uden ekstra træning.

Teknisk er det smarte ikke kun størrelsen på datasættet. Naver bruger billeder taget på forskellige tidspunkter for at lære modellen forskellen på faste strukturer og midlertidige objekter. Bygninger og vejbaner skal blive. Biler og fodgængere skal ikke kopieres blindt fra et gammelt gadebillede. Forskerne supplerede også med 12.700 syntetiske videoer fra CARLA-simulatoren og trænede modellen på 24 Nvidia H100-GPU'er. Det er en tung opsætning, men pointen er enkel: mindre fantasi, mere stedfasthed.

💡 Hvor det kan bruges Kilden peger på byplanlægning, autonom kørsel og lokationsbaseret udforskning. Det er også oplagt for forsyning, vejdrift, ejendomsinspektion og tidlige projektsimuleringer.

I en dansk sammenhæng bør man især lægge mærke til, at modellen holder sig stabil over længere ruter og samtidig kan ændre vejr, tidspunkt eller scenarie med tekstprompter. Det gør teknologien relevant til øvelser og visualiseringer, hvor man vil se et kendt sted under nye forhold, uden at hele gaden forsvinder i kunstig intelligens-tåge.

The Decoder skriver også, at ansigter og nummerplader blev anonymiseret før træning. Det er ikke bare en note. Det er et krav, hvis den her type modeller nogensinde skal bruges tæt på virkelige steder i Europa. Begrænsningerne er samtidig tydelige. Træningen bygger stadig på interpolerede sekvenser frem for ægte, sammenhængende video, og dårlige tidsstempler kan få biler til at dukke op eller forsvinde brat. Det er derfor ikke et færdigt beslutningssystem. Men det er et klart tegn på, at næste bølge af generativ kunstig intelligens i det fysiske rum ikke bliver bedømt på, hvor kreativ den er. Den bliver bedømt på, om den kan holde sig til vejen.