Alibaba fikser et grundproblem i billedanalyse med kunstig intelligens med ny metode

Kunstig intelligensComputer VisionUdvikling

Når en AI-model skal besvare et spørgsmål om et billede, sker det ofte i flere trin. Modellen identificerer først et objekt, derefter en egenskab, og til sidst drager den en konklusion. Problemet er, at en lille fejl i det første trin kan give et overbevisende, men forkert svar i det sidste.

Alibabas Qwen-team og Tsinghua University har bygget en metode kaldet HopChain, som adresserer netop det. I stedet for at lade modellen ræsonnere i ét langt træk, tvinger HopChain den til at tjekke detaljer i billedet trin for trin. Hvert trin bygger på det forrige, og modellen skal gå tilbage til billedet ved hvert hop.

Træningsdataene genereres i fire faser: objektidentifikation, segmentering, spørgsmålsgenerering og menneskelig kvalitetskontrol. Resultaterne viser forbedringer på 20 ud af 24 standardtests for to Qwen-modeller. Selv på videoanalyse blev resultaterne bedre, selvom træningsdataene kun bestod af enkeltbilleder.

For virksomheder der bruger eller overvejer kunstig intelligens til visuel inspektion, dokumentanalyse eller lignende opgaver, er pointen konkret: problemet med upålidelige svar skyldes ofte, at modellen tager genveje i sin ræsonneringsproces. Løsningen er ikke nødvendigvis en større model, men en bedre struktur i den måde modellen arbejder sig frem til svaret.

Denne korte nyhedsartikel er skrevet med kunstig intelligens på baggrund af kilderne nedenfor.

Læs kilden

Fandt du en fejl?

Alibaba fikser et grundproblem i billedanalyse med kunstig intelligens med ny metode

Læs videre eller kontakt mig