Googles svar fra kunstig intelligens er rigtige ni ud af ti gange, men kilderne holder ikke

AI-startuppet Oumi har på vegne af New York Times undersøgt 4.326 Google-søgninger med benchmarken SimpleQA. Testen blev kørt i oktober med Gemini 2 og igen i februar efter opgraderingen til Gemini 3. Resultatet viser, at kunstig intelligens Overviews blev mere korrekte med den nye model, men at kildeunderstøttelsen gik den forkerte vej.

Flere rigtige svar, færre gode kilder

Med Gemini 2 var kunstig intelligens Overviews korrekte i 85 procent af tilfældene. Med Gemini 3 steg det til 91 procent. Det er en klar forbedring.

Men Oumi undersøgte også, om de kilder Google linkede til faktisk understøttede svarene. Med Gemini 2 var 37 procent af de korrekte svar "ungrounded", altså uden fuld støtte i de linkede kilder. Med Gemini 3 steg den andel til 56 procent. Det vil sige, at Google oftere giver det rigtige svar, men sjældnere kan dokumentere, hvor svaret kommer fra.

New York Times fremhævede eksempler, hvor Google fandt den rigtige kilde, men stadig læste informationen forkert.

Facebook og Reddit som kilder

Ud af 5.380 citerede kilder var Facebook den næstmest brugte og Reddit den fjerdemest brugte. Det rejser spørgsmål om kvaliteten af det grundlag, AI-svarene bygger på.

Googles kritik af studiet

Google kritiserede studiet og sagde, at SimpleQA ikke afspejler normale Google-søgninger og indeholder fejl. Det er en rimelig indvending, som ikke ændrer hovedpointen: Forskellen mellem et korrekt svar og et svar, man kan efterprøve via kilden, vokser.

Hvad det betyder i praksis

For danske virksomheder, der bruger Google-søgning som arbejdsredskab, er studiet en påmindelse om at tjekke kilder, også når AI-svaret ser rigtigt ud. Artiklen peger desuden på, at direkte svar fra kunstig intelligens kan mindske trafikken til de oprindelige websites. Det er relevant for virksomheder, der er afhængige af organisk søgetrafik.

Googles svar fra kunstig intelligens er rigtige ni ud af ti gange, men kilderne holder ikke

Flere rigtige svar, færre gode kilder

Facebook og Reddit som kilder

Googles kritik af studiet

Hvad det betyder i praksis

Læs videre eller kontakt mig