Mange AI-målinger overser, at mennesker faktisk er uenige

Der bliver talt meget om, hvilken model der er bedst. Mindre bliver der talt om, hvor tyndt grundlaget nogle gange er, når de modeller bliver kåret. Et nyt studie fra Google Research og Rochester Institute of Technology går direkte ind i det problem, og det er mere praktisk, end det lyder.

💡 Det centrale fund Tre til fem menneskelige bedømmere per eksempel er ofte ikke nok til at sammenligne modeller på en troværdig måde. I mange tilfælde skal man over ti bedømmere op for at fange reel uenighed mellem mennesker.

Forskerne har testet tusindvis af fordelinger af et begrænset vurderingsbudget. Spørgsmålet var enkelt: Er det bedst at få få vurderinger af mange eksempler, eller mange vurderinger af færre eksempler? Svaret er, at det afhænger af, hvad man prøver at måle. Hvis man kun vil finde flertallets svar, kan få bedømmere være nok. Hvis man derimod vil forstå, hvor enige eller uenige mennesker er, så skal flere bedømmere kigge på de samme svar.

Studiet peger også på noget, der bør få både indkøbere og produktfolk til at spidse ører. Omkring 1.000 samlede vurderinger kan faktisk være nok til at få stabile resultater, men kun hvis budgettet deles rigtigt mellem antal opgaver og antal bedømmere. Med en dårlig fordeling kan selv et større budget give skæve konklusioner.

💡 Hvorfor det betyder noget i praksis To AI-svar kan ende med samme flertalsdom og alligevel skabe meget forskellig uenighed blandt mennesker. Den forskel forsvinder i mange benchmark-tabeller.

For danske virksomheder og offentlige organisationer er lektien ret brugbar. Når man tester en chatbot til borgerservice, sagsbehandling eller intern support, er det ikke nok at spørge tre kolleger og tage gennemsnittet. Man skal også finde ud af, hvor uenigheden ligger. Et svar kan virke fint for én medarbejder og være klart for uklart eller for hårdt for en anden.

Mandag morgen-versionen er denne: Brug færre demoer og flere gentagne vurderinger på de vigtigste cases. Lad flere medarbejdere bedømme de samme svar. Kig ikke kun på, om AI’en svarer rigtigt, men også på, om folk faktisk er enige i, at svaret er brugbart, sikkert og fair.

Det gør evalueringen langsommere. Til gengæld bliver den mere ærlig. Og hvis man skal købe eller rulle AI ud i drift, er det en bedre pris at betale end at stole blindt på en leaderboard, der glatter menneskelig uenighed ud.