Hvordan ChatGPT-vandmærket virker, og hvorfor det kunne besejres

OpenAIs ChatGPT introducerede en måde til automatisk at oprette indhold, men planlægger at introducere en vandmærkefunktion for at gøre det let at opdage, at nogle mennesker bliver nervøse. Sådan fungerer ChatGPT-vandmærke, og hvorfor der kan være en måde at besejre det på.

ChatGPT er et utroligt værktøj, som onlineudgivere, tilknyttede selskaber og SEO'er samtidig elsker og frygter.

Nogle marketingfolk elsker det, fordi de opdager nye måder at bruge det til at generere indholdstrusser, skitser og komplekse artikler.

Online-udgivere er bange for udsigten til, at AI-indhold oversvømmer søgeresultaterne og erstatter ekspertartikler skrevet af mennesker.

Følgelig forventes nyheder om en vandmærkefunktion, der låser op for registrering af ChatGPT-forfattet indhold, ligeledes med angst og håb.

Kryptografisk vandmærke

Et vandmærke er et semi-gennemsigtigt mærke (et logo eller tekst), der er indlejret i et billede. Vandmærket signalerer, hvem der er den oprindelige forfatter til værket.

Det ses i vid udstrækning på fotografier og i stigende grad i videoer.

Vandmærketekst i ChatGPT involverer kryptografi i form af indlejring af et mønster af ord, bogstaver og tegnsætning i form af en hemmelig kode.

Scott Aaronson og ChatGPT Watermarking

En indflydelsesrig datalog ved navn Scott Aaronson blev hyret af OpenAI i juni 2022 til at arbejde med AI Safety and Alignment.

AI Safety er et forskningsfelt, der beskæftiger sig med at studere måder, hvorpå AI kan skade mennesker og skabe måder til at forhindre den slags negative forstyrrelser.

Det videnskabelige tidsskrift Distill, med forfattere tilknyttet OpenAI, definerer AI Safety sådan:

"Målet med langsigtet kunstig intelligens (AI) sikkerhed er at sikre, at avancerede AI-systemer er pålideligt afstemt med menneskelige værdier - at de pålideligt gør ting, som folk vil have dem til at gøre."

AI Alignment er det kunstige intelligensfelt, der beskæftiger sig med at sikre, at AI er tilpasset de tilsigtede mål.

En stor sprogmodel (LLM) som ChatGPT kan bruges på en måde, der kan gå i modstrid med målene for AI Alignment som defineret af OpenAI, som er at skabe AI, der gavner menneskeheden.

Derfor er grunden til vandmærkning at forhindre misbrug af AI på en måde, der skader menneskeheden.

Aaronson forklarede årsagen til vandmærkning af ChatGPT-output:

"Dette kunne naturligvis være nyttigt til at forhindre akademisk plagiat, men også for eksempel massegenerering af propaganda..."

Hvordan fungerer ChatGPT-vandmærke?

ChatGPT vandmærke er et system, der indlejrer et statistisk mønster, en kode, i valg af ord og endda tegnsætningstegn.

Indhold skabt af kunstig intelligens er genereret med et ret forudsigeligt mønster af ordvalg.

Ordene skrevet af mennesker og AI følger et statistisk mønster.

Ændring af mønsteret af de ord, der bruges i genereret indhold, er en måde at "vandmærke" teksten på for at gøre det nemt for et system at opdage, om det var et produkt af en AI-tekstgenerator.

Tricket, der gør vandmærkning af AI-indhold uopdagelig, er, at fordelingen af ord stadig har et tilfældigt udseende, der ligner normal AI-genereret tekst.

Dette omtales som en pseudorandom fordeling af ord.

Pseudorandomness er en statistisk tilfældig række af ord eller tal, der faktisk ikke er tilfældige.

ChatGPT-vandmærke er ikke i brug i øjeblikket. Scott Aaronson hos OpenAI er dog registreret og siger, at det er planlagt.

Lige nu er ChatGPT i previews, hvilket gør det muligt for OpenAI at opdage "fejljustering" gennem brug i den virkelige verden.

Formodentlig kan vandmærkning blive introduceret i en endelig version af ChatGPT eller tidligere end det.

Scott Aaronson skrev om, hvordan vandmærkning virker:

“Mit hovedprojekt indtil videre har været et værktøj til statistisk vandmærkning af output fra en tekstmodel som GPT.
Dybest set, når GPT genererer lang tekst, ønsker vi, at der skal være et ellers umærkeligt hemmeligt signal i dets valg af ord, som du kan bruge til at bevise senere, at ja, dette kom fra GPT."

Aaronson forklarede yderligere, hvordan ChatGPT-vandmærke virker. Men først er det vigtigt at forstå begrebet tokenisering.

Tokenisering er et trin, der sker i naturlig sprogbehandling, hvor maskinen tager ordene i et dokument og opdeler dem i semantiske enheder som ord og sætninger.

Tokenisering ændrer tekst til en struktureret form, der kan bruges i maskinlæring.

Processen med tekstgenerering er maskinen, der gætter, hvilket token der kommer næste baseret på det forrige token.

Dette gøres med en matematisk funktion, der bestemmer sandsynligheden for, hvad det næste token bliver, det der kaldes en sandsynlighedsfordeling.

Hvilket ord der er det næste er forudsagt, men det er tilfældigt.

Selve vandmærket er, hvad Aaron beskriver som pseudorandom, idet der er en matematisk grund til, at et bestemt ord eller tegnsætningstegn er der, men det er stadig statistisk tilfældigt.

Her er den tekniske forklaring af GPT-vandmærke:

"For GPT er hvert input og output en streng af tokens, som kunne være ord, men også tegnsætningstegn, dele af ord eller mere - der er omkring 100.000 tokens i alt.
I sin kerne genererer GPT konstant en sandsynlighedsfordeling over det næste token, der skal genereres, betinget af strengen af tidligere tokens.
Efter at det neurale netværk har genereret distributionen, prøver OpenAI-serveren faktisk et token i henhold til denne distribution – eller en modificeret version af distributionen, afhængigt af en parameter kaldet 'temperatur'.
Så længe temperaturen ikke er nul, vil der dog normalt være en vis tilfældighed i valget af den næste token: du kan køre igen og igen med den samme prompt og få en anden fuldførelse (dvs. en række output-tokens) hver gang .
Så for at vandmærke, i stedet for at vælge det næste token tilfældigt, vil ideen være at vælge det pseudotilfældigt ved at bruge en kryptografisk pseudorandom funktion, hvis nøgle kun er kendt af OpenAI."

Vandmærket ser helt naturligt ud for dem, der læser teksten, fordi valget af ord efterligner tilfældighederne i alle de andre ord.

Dette er den tekniske forklaring:

"For at illustrere, i det specielle tilfælde, at GPT havde en masse mulige tokens, som det vurderede som lige så sandsynlige, kunne du simpelthen vælge hvilket token, der maksimerede g. Valget ville se ensartet tilfældigt ud for en, der ikke kendte nøglen, men en, der kendte nøglen, kunne senere summere g over alle n-gram og se, at den var unormalt stor."

Vandmærkning er en privatlivs-først løsning

Jeg har set diskussioner på sociale medier, hvor nogle mennesker foreslog, at OpenAI kunne holde et register over hvert output, det genererer, og bruge det til detektion.

Scott Aaronson bekræfter, at OpenAI kunne gøre det, men at det udgør et privatlivsproblem. Den mulige undtagelse er for retshåndhævelsessituationen, som han ikke uddybede.

Sådan registreres ChatGPT- eller GPT-vandmærke

Noget interessant, som tilsyneladende ikke er kendt endnu, er, at Scott Aaronson bemærkede, at der er en måde at besejre vandmærket på.

Han sagde ikke, at det er muligt at besejre vandmærket, han sagde, at det kan besejres.

"Nu kan det hele besejres med tilstrækkelig indsats.
For eksempel, hvis du brugte en anden AI til at parafrasere GPT's output - okay, vi vil ikke være i stand til at opdage det."

Det ser ud til, at vandmærket kan besejres, i hvert fald fra november, hvor ovenstående udtalelser blev fremsat.

Der er ingen indikation af, at vandmærket er i brug i øjeblikket. Men hvornår det kommer i brug, kan det være uvist, om dette smuthul blev lukket.

Citation

Læs Scott Aaronsons blogindlæg her.

Hvordan ChatGPT-vandmærket fungerer, og hvorfor det kunne besejres