GPT-4.5 bestod Turing-testen ved at spille dum

OpenAIs GPT-4.5-model har bestået en moderne version af Turing-testen, men kun efter at forskerne instruerede den i at lave stavefejl, droppe tegnsætning og svare forkert på simple regnestykker. Med den strategi troede 73 procent af forsøgsdeltagerne, at de chattede med et menneske.

Resultatet rejser vigtige spørgsmål for alle, der arbejder med AI i kundeservice, kommunikation eller indholdsproduktion.

Hvordan foregik testen?

Forskerne satte GPT-4.5 op i en klassisk Turing-test, hvor deltagere skulle afgøre, om de chattede med en person eller en maskine. Uden særlige instruktioner var modellen for "perfekt" i sine svar: fejlfri grammatik, præcise svar og høflig tone afslørede den som kunstig.

Først da forskerne bad modellen om bevidst at introducere menneskelige fejl, som stavefejl, uformel tone og fejl i hovedregning, steg succesraten markant. 73 procent af deltagerne vurderede, at de talte med et menneske.

💡 Turing-testen i 2026 Alan Turings originale test fra 1950 spurgte: "Kan en maskine imitere et menneske godt nok til at narre en dommer?" I 2026 er svaret ja, men kun hvis maskinen bevidst gør sig dårligere. Det peger på, at vores opfattelse af "menneskelig" kommunikation i høj grad handler om fejl og uforudsigelighed.

Konsekvenser for danske organisationer

For virksomheder og myndigheder, der bruger AI-chatbots i borgerbetjening eller kundeservice, er resultatet en påmindelse om gennemsigtighedens vigtighed. Når AI kan passere som menneske, bliver det afgørende at mærke AI-genereret kommunikation tydeligt.

EU's AI Act kræver allerede, at brugere informeres, når de interagerer med et AI-system. Danske organisationer bør sikre, at deres chatbots og virtuelle assistenter lever op til dette krav, ikke kun juridisk, men også i praksis.

Resultatet rejser også spørgsmål om AI-detektion. Værktøjer, der forsøger at afgøre om tekst er skrevet af AI, står over for en voksende udfordring, når modellerne kan tilpasse deres stil til at ligne menneskelig kommunikation ned til småfejlene.

For uddannelsesinstitutioner og medier understreger det behovet for at udvikle nye metoder til at verificere indhold, der går ud over simpel tekstanalyse.