Spring til indhold
Tilbage til nyheder
Alibaba fikser et grundproblem i AI-billedanalyse med ny metode

Alibaba fikser et grundproblem i AI-billedanalyse med ny metode

AIComputer VisionUdvikling

Når en AI-model skal besvare et spørgsmål om et billede, sker det ofte i flere trin. Modellen identificerer først et objekt, derefter en egenskab, og til sidst drager den en konklusion. Problemet er, at en lille fejl i det første trin kan give et overbevisende, men forkert svar i det sidste.

Alibabas Qwen-team og Tsinghua University har bygget en metode kaldet HopChain, som adresserer netop det. I stedet for at lade modellen ræsonnere i ét langt træk, tvinger HopChain den til at tjekke detaljer i billedet trin for trin. Hvert trin bygger på det forrige, og modellen skal gå tilbage til billedet ved hvert hop.

Træningsdataene genereres i fire faser: objektidentifikation, segmentering, spørgsmålsgenerering og menneskelig kvalitetskontrol. Resultaterne viser forbedringer på 20 ud af 24 standardtests for to Qwen-modeller. Selv på videoanalyse blev resultaterne bedre, selvom træningsdataene kun bestod af enkeltbilleder.

For virksomheder der bruger eller overvejer AI til visuel inspektion, dokumentanalyse eller lignende opgaver, er pointen konkret: problemet med upålidelige svar skyldes ofte, at modellen tager genveje i sin ræsonneringsproces. Løsningen er ikke nødvendigvis en større model, men en bedre struktur i den måde modellen arbejder sig frem til svaret.

🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.

Læs original kilde →

Fandt du en fejl?