Britannica-sag mod OpenAI rammer også danske indholdsprojekter

Encyclopedia Britannica og Merriam-Webster indgav fredag et søgsmål mod OpenAI. Ifølge sagen er næsten 100.000 Britannica-artikler blevet brugt uden tilladelse til træning af modeller, og GPT-4 skal i flere tilfælde kunne gengive passager fra indholdet næsten ordret. The Verge refererer til Reuters for oplysningen om, at materialet både skulle være brugt i træning og senere dukke op i svarene.

Det gør sagen interessant langt ud over USA. Den kobler ophavsret og modelmemorering direkte sammen. Altså ikke kun spørgsmålet om, hvorvidt en model må trænes på beskyttet indhold, men også om modellen bagefter kan spytte teksten ud igen i en form, der ligger meget tæt på originalen.

💡 Hvad danske aktører bør hæfte sig ved Hvis retten giver Britannica medhold i, at GPT-4 kan gengive næsten ordrette passager fra beskyttet materiale, bliver det et konkret problem for alle, der bygger produkter oven på generative modeller og eksternt indhold. Det gælder forlag, medier, vidensvirksomheder og offentlige organisationer, som bruger tredjepartsdata, licenseret materiale eller åbne kilder i søgning, opsummering og chatbot-løsninger.

For danske forlag og mediehuse handler det især om kontrol med kilder, rettigheder og output. Hvis en løsning bygger på generative modeller fra eksterne leverandører, er det ikke nok at have styr på, hvilke dokumenter man selv lægger ind. Man skal også forholde sig til, hvordan den underliggende model er trænet, og om den kan gengive beskyttet tekst fra andre steder.

For vidensvirksomheder er sagen et vink med en vognstang om kontrakter. Hvis man sælger analyse, research eller rådgivning med hjælp fra generative modeller, kan kunder begynde at spørge mere direkte til dokumentation, ansvar og risiko for ophavsretlige konflikter.

For offentlige organisationer er perspektivet mere praktisk end principielt. Mange bruger eller tester allerede løsninger til søgning i dokumenter, borgerservice og intern vidensdeling. Her bliver det vigtigt at kunne forklare, hvor svar kommer fra, og hvordan man undgår, at systemer gengiver tekst, som man ikke har ret til at bruge.

Sagen er stadig kun et søgsmål. Men den flytter debatten fra generelle diskussioner om træningsdata til et mere håndgribeligt punkt: Kan modellen huske og genskabe indhold, som andre ejer. Hvis svaret i retten bliver ja, kan det få betydning for både indkøb, compliance og produktdesign i danske organisationer, der bygger oven på generative modeller.