Spring til indhold
Tilbage til nyheder
Nyt fælles sprog for prompt-injektion gør sikkerhedskrav mere konkrete

Nyt fælles sprog for prompt-injektion gør sikkerhedskrav mere konkrete

kunstig intelligensit-sikkerhedgovernance

Lasso Security har offentliggjort en ny taksonomi (en systematisk kategorisering) for prompt-injektion (angreb, hvor manipulerende tekst får et system med kunstig intelligens til at ændre adfærd eller lække information). Pointen er enkel: Når man kan sætte præcise ord på angrebene, bliver det lettere at risikovurdere – og at stille klare krav til leverandører.

Kort fortalt

  • Prompt-injektion er manipulerende tekstinput, der kan få kunstig intelligens til at afvige fra sine regler
  • Lasso skelner mellem hensigt (hvad angriberen vil) og teknik (hvordan det gøres)
  • Rammeværket kan bruges direkte i kravspecifikationer, test og leverandørdialog

Hensigt vs. teknik: derfor er opdelingen nyttig

Et prompt-angreb sker via en prompt (det tekstinput, man giver systemet). Lasso foreslår, at man altid vurderer angreb i to spor:

  • Hensigt: fx læk af interne systeminstruktioner (system prompt leakage) eller omgåelse af regler (jailbreak).
  • Teknik: den konkrete metode angriberen bruger for at øge chancen for at lykkes.
Angriberens hensigtTypisk konsekvens i en virksomhedEksempel på kontrol
Læk af interne systeminstruktionerInterne “spilleregler” og logik afsløres og kan misbrugesMinimér hvad systemet overhovedet kan “se”, og log/overvåg mistænkelige forespørgsler
Omgåelse af regler (jailbreak)Uønskede svar, regelbrud eller fejl i sags-/kundedialogEkstra kontrol af svar (tjek af systemets output) før det sendes videre

Teknikkerne: sådan kan angrebet se ud i praksis

Taksonomien beskriver en række velkendte teknikker, bl.a. instruktions-overstyring (”ignorér tidligere instruktioner”), rolleleg (få systemet til at “spille” en rolle uden begrænsninger), kontekst-udnyttelse (manipulere samtalehistorik), formaterings-manipulation (skjulte tegn/usædvanlig formatering), kodnings-tilsløring (fx Base64) og instruktions-smugling.

Instruktions-smugling er særlig relevant for danske organisationer, fordi mange løsninger med kunstig intelligens læser vedhæftede dokumenter eller websider: En skjult instruktion kan fx ligge i en HTML-kommentar i en webside, som er usynlig for mennesker – men stadig læsbar for systemet – og påvirke svaret eller forsøge at få systemet til at afsløre interne instruktioner.

Det kan du gøre nu

  1. Kortlæg hvor jeres løsninger med kunstig intelligens tager imod tekst fra kunder, borgere, mails, dokumenter og websider
  2. Brug “hensigt vs. teknik” som tjekliste i risikovurderinger og leverandørkrav (hvad er testet – og hvad er ikke?)
  3. Indfør rensning af input fra dokumenter/web (fjern skjult formatering, kommentarer og kodet tekst før systemet bruger det)
  4. Begræns hvilke handlinger systemet må udløse, og kræv menneskelig kvalitetssikring ved kritiske beslutninger
  5. Lav faste sikkerhedstests med eksempler på de kendte teknikker, og overvåg for usædvanlige mønstre i spørgsmål og svar

Kilder

🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.

Læs original kilde →

Fandt du en fejl?