Hvad er GPT-3? Alt hvad din virksomhed behøver at vide om OpenAI's banebrydende AI-sprogprogram

zdnet-gpt-3-er-det-næste-ord-inden-for-ai-ver-2.jpg

GPT-3 er et computerprogram skabt af den privatejet San Francisco start-up OpenAI. Det er et kæmpe neuralt netværk, og som sådan er det en del af den dybe læring inden for maskinlæring, der i sig selv er en gren inden for datalogiens felt kendt som kunstig intelligens eller AI. Programmet er bedre end nogen tidligere program til at producere tekstlinjer, der lyder som om de kunne være skrevet af et menneske.

Årsagen til at sådan en gennembrud kunne være nyttig for virksomheder er, at den har stort potentiale for at automatisere opgaver. GPT-3 kan svare på enhver tekst, som en person indtaster i computeren, med en ny tekst, der er passende til sammenhængen. Indtast f.eks. en fuld dansk sætning i en søgeboks, og du får større sandsynlighed for at få en relevant svar i fulde sætninger. Det betyder, at GPT-3 i teorien kan forstærke menneskelige bestræbelser på en bred vifte af situationer, lige fra spørgsmål og svar til kundeservice til dokument-søgning i forbindelse med due diligence til rapport-generering.

Bemærk det følgende korte eksempel på hvad en person skriver ind i computeren, og hvordan GPT-3 sender et svar tilbage:

Menneskeskabt input: Spørgsmål: Hvem spillede Tess i Touched by an Angel?

GPT-3-genereret fuldførelse: A: Delloreese Patricia Early (6. juli 1931 - 19. november 2017), kendt professionelt som Della Reese

Programmet er i øjeblikket i en privat beta, hvor folk kan tilmelde sig på en venteliste. Det tilbydes af OpenAI som et API, der kan tilgås gennem skyen, og virksomheder, der har fået adgang, har udviklet nogle spændende applikationer, der bruger generering af tekst til at forbedre alle slags programmer, lige fra enkel spørgsmål-svar til at producere programmeringskode.

Sammen med potentialet for automatisering kommer også store ulemper. GPT-3 kræver meget datakraft, hvilket gør den uegnet til de fleste virksomheder på enhver tænkelig lokal løsning. Den genererede tekst kan være imponerende ved første øjekast, men længere tekster har en tendens til at blive lidt meningsløse. Og den har stort potentiale for at forstærke fordomme, herunder racisme og sexisme.

HVORDAN FUNGERER GPT-3?

GPT-3 er et eksempel på det, der kendes som en sprogmodel, hvilket er en særlig slags statistisk program. I dette tilfælde blev den oprettet som et neuralt netværk.

Navnet GPT-3 er en forkortelse for "generativ pre-træning", hvilket er den tredje version hidtil. Det er generativt, fordi det i modsætning til andre neurale netværk, der kommer med et numerisk resultat eller et ja eller nej svar, kan GPT-3 generere lange sekvenser af original tekst som output. Det er forudtrænet i den forstand, at det ikke er bygget med nogen domæneviden, selvom det kan udføre opgaver i specifikke domæner, såsom oversættelse af fremmedsprog.

En sprogmodel er i tilfældet med GPT-3 et program, der beregner hvor sandsynligt det er, at et ord optræder i en tekst, givet de andre ord i teksten. Det er det, der kendes som de betingede sandsynligheder af ordene.

For eksempel, i sætningen, Jeg ønskede at lave en omelet, så jeg gik hen til køleskabet og tog nogle ____ ud, kan det blanke felt fyldes med ethvert ord, endda uforståelige ord, givet sprogets uendelige sammensætningsmuligheder. Men ordet "æg" scorer sandsynligvis ret højt til at udfylde det blanke felt i de fleste normale tekster, højere end f.eks. "elefanter". Vi siger, at sandsynligheden for æg under betingelse af den ledende tekst er højere end sandsynligheden for elefanter.

Når neuralt netværk udvikles, kaldet træningsfasen, fodres GPT-3 med millioner og atter millioner af teksteksempler, og den omdanner ord til det, der kaldes vektorer, numeriske repræsentationer. Det er en form for datakomprimering. Programmet forsøger herefter at pakke denne komprimerede tekst ud tilbage til en gyldig sætning. Opgaven med at komprimere og dekomprimere udvikler programmets præcision i beregningen af den betingede sandsynlighed for ord.

Når modellen er blevet trænet, hvilket betyder, at dens beregninger af betinget sandsynlighed for milliarder af ord er blevet så præcise som muligt, kan den forudsige, hvilke ord der kommer næste gang den bliver aktiveret af en person, der indtaster et startord eller nogle startord. Den handling kaldes i maskinlæring for inferens.

Det fører til en slående spejleffekt. Ikke kun fremkommer sandsynlige ord, men teksturen og rytmen i en genre eller formen af en skriftlig opgave, såsom spørgsmål-svar sæt, genskabes. Så for eksempel kan GPT-3 fodres med nogle navne på berømte digtere og prøver på deres arbejde, derefter navnet på en anden digter og bare en titel på et indbildt digt, og GPT-3 vil producere et nyt digt på en måde, der er i overensstemmelse med rytmen og syntaksen hos digteren, hvis navn er blevet fremhævet.

Overvej følgende eksempel på GPT-3, der skaber et digt fra bunden, der ligner værket af Wallace Stevens, efter at have fået titler, navne og eksempler på andre digtere og deres værker:

Menneskeskabt indtastning: Byen AF C. P. CAVAFY   OMSAT AF EDMUND KEELEY [Digtekst udeladt]

Menneskelig indtastning : NOGLE TRÆER John Ashbery [Digtekst udeladt]

Menneskeskabt indput : Skygger på vejen Wallace Stevens

GPT-3-genereret fuldførelse: -------- Genereret digt 1 --------   Jeg skal have skygger på vejen  Hvis jeg skal gå, skal jeg have  Hver skridt taget langsomt og alene  For at have det klar til brug    Og jeg skal tænke i grå nuancer  For at have dunkle tanker som min vejleder  Skal se på blåt og grønt  Og aldrig lade mit øje glemme  At farve er min ven  Og lilla skal også omgive mig  Gul er ikke mere påtrængende end det blålige sne  Der falder på os alle. Jeg skal have  Grå tanker og blå tanker, der går med mig  Hvis jeg overhovedet skal væk.

At generere et svar betyder, at GPT-3 kan gå meget videre end blot at producere tekst. Den kan udføre alle former for tests, herunder tests af ræsonnement, der involverer et svar i naturligt sprog. Hvis GPT-3 for eksempel får en essay om huslejeniveauet i lejligheder i Manhattan som input, og en udsagn, der opsummerer teksten, såsom "Manhattan er billigt", og spørgsmålet "sandt eller falsk?", vil GPT-3 reagere på hele denne opgave ved at returnere ordet "falsk", da udsagnet ikke er i overensstemmelse med essayets argument.

Menneskelige input : Tendensen til lavere huslejer kan virke overraskende, når man tænker på, at nogle lokalsamfund i New York beklager tabet af yndlingslokale virksomheder til høje lejepriser. Men selvom der har været en nylig afmatning, har mange af disse detailhandlere stadig oplevet et alt for stort spring fra de lejepriser, der blev indgået i slutningen af 1970'erne, da deres lejekontrakter blev underskrevet. Selvom priserne er faldet for nylig, betyder det ikke, at Manhattan er billig.

Menneskeskabt input: spørgsmål: Manhattan er billig. sandt, falsk eller hverken-eller?

Menneskelig input: svar:

GPT-3-genereret færdiggørelse: falsk

GPT-3's evne til at svare på en måde, der er i overensstemmelse med en eksempelopgave, herunder former, som den aldrig har været udsat for før, gør den til en såkaldt "few-shot" sprogmodel. I stedet for at være omfattende tilpasset eller "trænet", som det hedder, til en given opgave, har GPT-3 allerede så meget information om de mange måder, ord kombineres på, at den kun kan gives en håndfuld eksempler på en opgave, hvad der kaldes et finjusteringstrin, og den opnår evnen til også at udføre den nye opgave.

Evnen til at afspejle naturlige sprogstile og at opnå relativt høje resultater i sprogrelaterede tests kan give indtryk af, at GPT-3 nærmer sig en slags menneskelignende sproglig dygtighed. Som vi vil se, er det ikke tilfældet.

Mere teknisk detalje kan findes i den formelle GPT-3-artikel udgivet af OpenAI-forskere.

HVAD KAN GPT-3 GØRE?

OpenAI er nu blevet lige så berømt - eller berygtet - for udgivelsesmetoderne for sin kode som for selve koden. Da virksomheden præsenterede GPT-2, forgængeren, på Valentinsdag 2019, ønskede den ikke at frigive den mest kompetente version til offentligheden og mente, at det var for farligt at frigive den i naturen på grund af risikoen for masseudbredelse af falsk og vildledende tekst. OpenAI har senere gjort den tilgængelig til download.

Denne gang stiller OpenAI ikke nogen downloads til rådighed. I stedet har de aktiveret et cloud-baseret API-endepunkt, der gør GPT-3 til en as-a-service løsning. (Tænk på det som LMaaS, sprogmodel-som-en-service.) Årsagen, hævder OpenAI, er både for at begrænse GPT-3's brug af ondsindede aktører og for at tjene penge.

"Der er ingen 'fortryd' knap med open source," meddelte OpenAI ZDNet gennem en talsperson.

"Ved at frigive GPT-3 via en API kan vi sikkert kontrollere dets brug og tilbagekalde adgangen om nødvendigt."

I øjeblikket er OpenAI API-tjenesten begrænset til godkendte parter; der er en venteliste, man kan tilmelde sig for at få adgang.

"Lige nu er API'en i en kontrolleret beta med et lille antal udviklere, der indsender en idé til noget, de gerne vil bringe i produktion ved hjælp af API'en," fortalte OpenAI ZDNet.

Også: OpenAI's 'farlige' AI-tekstgenerator er ude: Folk finder ordene 'overbevisende'

Der er spændende eksempler på, hvad der kan gøres fra virksomheder i betaprogrammet. Sapling, et firma støttet af risikovirksomhedsfonden Y Combinator, tilbyder et program, der ligger oven på CRM-softwaren. Når en kunderepræsentant håndterer en indgående hjælpeanmodning, f.eks. via e-mail, bruger programmet GPT-3 til at foreslå en hel sætning som svar blandt de mest sandsynlige svar.

sappling-kundeservice-ved-hjælp-af-gpt-3.jpg

Spilselskabet Latitude bruger GPT-3 til at forbedre sit tekstbaserede adventure-spil, AI Dungeon. Normalt ville et adventure-spil kræve et komplekst beslutningstræ for at skripte mange mulige veje gennem spillet. I stedet kan GPT-3 dynamisk generere et skiftende gameplay-tilstand som svar på brugernes skrevne handlinger.

Allerede nu går opgaveautomatisering ud over naturligt sprog og genererer computerkode. Kode er et sprog, og GPT-3 kan udlede den mest sandsynlige syntaks for operatorer og operandi i forskellige programmeringssprog, og den kan producere sekvenser, der kan kompileres og køres succesfuldt.

En tidlig eksempel oplyste Twitter-verdenen, fra app-udviklingsstart Debuild. Virksomhedens chef, Sharif Shameem, var i stand til at konstruere et program, hvor du skriver din beskrivelse af en software-brugergrænseflade på almindeligt engelsk, og GPT-3 svarer med computerkode ved hjælp af JSX-syntaksudvidelsen til JavaScript. Denne kode producerer en brugergrænseflade, der matcher det, du har beskrevet.

Dette er sindssygt. Med GPT-3 har jeg bygget en layoutgenerator, hvor du bare skal beskrive det layout, du ønsker, og den genererer JSX-koden til dig. W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13. juli 2020

Shameem viste, at ved at beskrive et UI med flere knapper kunne han med en enkelt sætning beskrive et helt program, selvom det kun er et simpelt ét, såsom at beregne grundlæggende aritmetik og vise resultatet, og GPT-3 ville kunne generere al koden til det og vise den kørende app.

Jeg har lige bygget en *fungerende* React-app ved at beskrive, hvad jeg ønskede til GPT-3. Jeg er stadig forbløffet. pic.twitter.com/UUKSYz2NJO

- Sharif Shameem (@sharifshameem) Juli 17, 2020

OpenAI har "modtaget titusindvis af ansøgninger om API-adgang indtil nu og er omhyggelige med at give adgang, da vi lærer, hvad disse modeller kan gøre i den virkelige verden," fortalte virksomheden ZDNet. "Derfor kan ventelisten være lang."

Priserne for en eventuel kommerciel service er endnu ikke fastlagt. Da OpenAI blev spurgt, hvornår programmet vil komme ud af beta, fortalte de ZDNet, "ikke lige foreløbig."

"Ved at frigive en så kraftfuld model betyder det, at vi skal gå langsomt frem og tænke over dens indvirkning på virksomheder, industrier og mennesker," udtalte virksomheden. "API-formatet giver os mulighed for at studere og moderere dens anvendelse på passende vis, men vi har ikke travlt med at gøre det generelt tilgængeligt på grund af dets begrænsninger."

Hvis du er utålmodig med betaventelisten, kan du i mellemtiden downloade den tidligere version, GPT-2, som kan køres på en bærbar computer ved hjælp af en Docker-installation. Kildekoden er offentliggjort i den samme Github-arkivmappe, i Python-format til TensorFlow-frameworket. Selvfølgelig får du ikke de samme resultater som GPT-3, men det er en måde at begynde at gøre dig fortrolig med det.

Husk også, at der hele tiden kommer nye sprogmodeller med lignende funktioner, og nogle af dem kan være tilstrækkelige til dine formål. For eksempel har Google for nylig frigivet en version af deres BERT sprogmodel kaldet LaBSE, der viser en bemærkelsesværdig forbedring i sprogoversættelse. Den kan hentes til download fra TensorFlow Hub.

Også: OpenAI's gigantiske GPT-3 antyder begrænsningerne for sprogmodeller inden for AI

HVAD ER HISTORIEN BAG GPT-3?

GPT-3, som blev afsløret i maj, er den tredje version af et program, der først blev introduceret i 2018 af OpenAI og efterfulgt sidste år af GPT-2. De tre programmer er et eksempel på hurtig innovation inden for feltet for sprogmodeller, takket være to store fremskridt, der begge fandt sted i 2015.

Det første fremskridt var brugen af det, der kaldes opmærksomhed. AI-forsker Yoshua Bengio og hans kolleger på Mila-instituttet for AI i Montreal observerede, at sprogmodeller, når de komprimerede en engelsksproget sætning og derefter dekomprimerede den, alle brugte en vektor af en fast længde. Hver sætning blev proppet ind i en vektor af samme størrelse, uanset hvor lang sætningen var.

Bengio og hans hold konkluderede, at denne stive tilgang var en flaskehals. Et sprogmodel skal kunne søge på tværs af mange vektorer af forskellige længder for at finde de ord, der optimerer den betingede sandsynlighed. Og så fandt de på en måde at lade neurale netværk fleksibelt komprimere ord til vektorer af forskellige størrelser samt at tillade programmet fleksibelt at søge på tværs af disse vektorer efter den relevante kontekst. De kaldte dette for opmærksomhed.

Opmærksomhed blev et afgørende element i sprogmodeller. Det blev brugt af Google-forskere to år senere til at skabe et sprogmodelprogram kaldet Transformer. Transformeren opnåede utrolige scores i sprogmanipulationstests. Den blev den de facto-sprogmodel og blev brugt af Google til at skabe det, der kendes som BERT, endnu en meget succesrig sprogmodel. Transformeren blev også grundlaget for GPT-1.

Frigjort fra behovet for at rigidt manipulere en fast størrelse vektor, kunne Transformeren og dens efterkommere bevæge sig rundt i forskellige dele af en given tekst og finde betingede afhængigheder, der ville omfatte meget større sammenhæng.

Denne frihed banede vejen for endnu en innovation, der kom i 2015 og som var endnu mere central for OpenAI's arbejde, kendt som usuperviseret læring.

Op til dette tidspunkt havde fokus for de fleste sprogmodeller været overvåget læring med det, der kendes som mærket data. Givet en input, får et neuralt netværk også en eksempeludgang som den objektive version af svaret. Så hvis opgaven er oversættelse, kan en engelsk sætning være input, og en menneskeskabt fransk oversættelse ville blive leveret som det ønskede mål, og parret af sætninger udgør et mærket eksempel.

Det neurale netværks forsøg på at generere en fransk oversættelse ville blive sammenlignet med den officielle franske sætning, og forskellen mellem de to er, hvor meget det neurale netværk fejler i sine forudsigelser, hvad der er kendt som tabfunktionen eller objektivfunktionen.

Træningsfasen har til formål at lukke dette fejlrum mellem neurale nettets foreslåede output og måloutput. Når afstanden er så lille som muligt, er målfunktionen blevet optimeret, og sprogmodellens neurale net anses for at være trænet.

Men at have den ønskede output nøje mærket kan være et problem, fordi det kræver meget kuratering af data, såsom at samle eksempelsætninger ved menneskelig vurdering, hvilket er tidskrævende og ressourcekrævende. Andrew Dai og Quoc Le fra Google postulerede, at det var muligt at reducere mængden af mærket data, der var nødvendigt, hvis sprogmodellen først blev trænet på en usuperviseret måde.

I stedet for at få en sætningspar blev netværket kun givet enkelte sætninger og skulle komprimere hver enkelt til en vektor og dekomprimere hver enkelt tilbage til den originale sætning. Spejlingen blev tabafunktionen for at optimere. De fandt ud af, at jo flere ikke-mærkede eksempler blev komprimeret og dekomprimeret på denne måde, jo mere kunne de erstatte masser af mærket data på opgaver som oversættelse.

I 2018 kombinerede OpenAI-teamet disse to elementer: opmærksomhedsmekanismen, som Bengio og kolleger udviklede, der ville strejfe gennem mange ordvektorer, og den usupervisede pre-træningsmetode fra Dai og Le, der ville fortære store mængder tekst, komprimere den og dekomprimere den for at genskabe den oprindelige tekst.

De tog en standard Transformer og fodrede den med indholdet af BookCorpus, en database sammensat af University of Toronto og MIT, der består af over 7.000 udgivne bøger tekster med i alt næsten en million ord, i alt 5 GB. GPT-1 blev trænet til at komprimere og dekomprimere disse bøger.

Så begyndte en treårig historie om større og større datasæt. OpenAI-forskerne, der teoretiserede at mere data gjorde modellen mere præcis, skubbede grænserne for, hvad programmet kunne indtage. Med GPT-2 kastede de BookCorpus til fordel for en hjemmelavet datasæt, bestående af otte millioner websider, der blev skrabet fra udgående links fra Reddit, i alt 40 GB data.

GPT-3's træning er stadig mere monstrøs og består af det populære CommonCrawl-dataset med websider fra 2016 til 2019. Det udgør nominelt 45 TB komprimeret tekstdata, selvom OpenAI har kureret det for at fjerne dupliceringer og forbedre kvaliteten. Den endelige version udgør 570 GB data. OpenAI supplerede det med flere yderligere datasets af forskellige typer, herunder bøger.

HVORDAN AFHÆNGER GPT-3 AF BEREIGNINGSKRAFT?

Med ankomsten af GPT-1, 2 og 3 er skalaen af computerkraft blevet en essentiel ingrediens for fremskridt. Modellerne bruger mere og mere computerkraft, når de bliver trænet for at opnå bedre resultater.

Hvad der optimerer en neural netværk under træning er justeringen af dens vægte. Vægtene, som også kaldes parametre, er matricer, rækker og kolonner hvorved hver vektor bliver ganget med. Gennem multiplikation får de mange vektorer af ord, eller ordfragmenter, større eller mindre vægtning i den endelige output, når det neurale netværk tilpasses for at lukke fejlgabet.

OpenAI fandt ud af, at for at klare sig godt på deres stadig større datasæt, var de nødt til at tilføje flere og flere vægte.

Den originale Transformer fra Google havde 110 millioner vægte. GPT-1 fulgte denne design. Med GPT-2 blev antallet øget til 1,5 milliarder vægte. Med GPT-3 er antallet af parametre vokset til 175 milliarder, hvilket gør GPT-3 til det største neurale netværk, verden nogensinde har set.

Multiplicering er en simpel ting, men når 175 milliarder vægte skal ganges med hvert enkelt bit af indgangsdata over milliarder af bytes af data, bliver det en utrolig øvelse i parallel databehandling.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Allerede med GPT-1 i 2018 pressede OpenAI grænserne for praktisk computering. Øget mængden af data betød også øget mængde af grafikkort (GPUs). Tidligere sprogmodeller kunne være i en enkelt GPU, da modellerne i sig selv var små. GPT-1 tog en måned at træne på otte GPUs, der arbejdede parallelt.

Med GPT-3 har OpenAI været lidt tilbageholdende. Det har ikke beskrevet den præcise computerkonfiguration, der blev brugt til træning, udover at sige, at det var på en klynge af Nvidia V100 chips, der kører på Microsoft Azure. Virksomheden beskrev de samlede beregningscyklusser, der kræves, og udtalte, at det svarer til at køre tusind billioner flydende-punkts-operationer per sekund per dag i 3.640 dage.

Computer maker and cloud operator Lambda Computing has estimated that it would take a single GPU 355 years to run that much compute, which, at a standard cloud GPU instance price, would cost $4.6 million. Og så er der hukommelsen. For at gemme alle værdierne kræves der mere og mere hukommelse, når antallet af parametre vokser. GPT-3's 175 milliarder parametre kræver 700 GB hukommelse, 10 gange mere end hukommelsen på en enkelt GPU.

Det er den slags enormt stort krav til strøm, der driver fremtiden inden for computerchips. Det har fået aktiekursen for Nvidia, den dominerende leverandør af GPU til AI-træning, til at stige med næsten 5.000% i løbet af de sidste ti år. Det har givet opkomst til en række startups, der understøttes af hundredvis af millioner dollars i risikovillig kapitalfinansiering, herunder Cerebras Systems, Graphcore og Tachyum. Konkurrencen vil fortsætte med at blomstre, så længe det at bygge større og større modeller forbliver feltets retning.

OpenAI har produceret sin egen forskning om den stadigt stigende computerkraft, der er nødvendig. Firmaet bemærkede tilbage i 2018, at de beregningscykler, der forbruges af de største AI træningsmodeller, er fordoblet hver 3,4 måned siden 2012, en hurtigere udvidelsesrate end tilfældet var for den berømte Moores Lov om chiptransistorvækst. (Bemærk at firmaet også har produceret forskning, der viser, at på en enhedsbasis ender de stadig større modeller med at være mere effektive end tidligere neurale netværk, der udførte det samme arbejde.)

Allerede nu er der modeller under udvikling, der bruger over en billion parametre, ifølge virksomheder, der er blevet briefet om top hemmelige AI-projekter. Det er sandsynligvis ikke grænsen, så længe hyper-skala virksomheder som Google er villige til at afsætte deres enorme datacentre til stadig større modeller. De fleste AI-forskere er enige om, at større og større vil være normen for maskinlæringsmodeller i lang tid fremover.

"Hvad angår indflydelsen på AI som et felt, er det mest spændende ved GPT-3, at det viser, at vi slet ikke er tæt på grænserne for opskalering af AI," fortalte Kenny Daniel, CTO for leverandøren af AI-styringsværktøjer, Algorithmia, til ZDNet.

Udover at øge computerbrugen vil GPT-3's øvrige store indflydelse klart være, hvordan det fremskynder programmering og applikationsudvikling generelt. Shameems demonstration af et JSX-program, der er opbygget ved blot at skrive en sætning, er blot toppen af isbjerget.

HVAD ER SVAGHEDERNE VED GPT-3?

Trods stor forbedring i forhold til den tidligere version har GPT-3 mange begrænsninger, som forfatterne selv påpeger. "Selvom kvaliteten som helhed er høj, gentager GPT-3-prøver sig stadig nogle gange semantisk på dokumentniveau og begynder at miste sammenhæng i tilstrækkelig lange passager," bemærker de i den offentliggjorte artikel.

Programmet udfører også dårligt på en række individuelle tests. "Konkret har GPT-3 svært ved spørgsmål af typen 'Hvis jeg lægger ost i køleskabet, vil den smelte?' skriver forfatterne og beskriver den slags almindelige fornuftsmæssige ting, der undslipper GPT-3.

Der var så meget spænding kort tid efter GPT-3 kom ud, at virksomhedens CEO, Sam Altman, offentligt bad folk om at dæmpe deres begejstring.

"GPT-3 hypen er alt for meget," tweetede Altman den 19. juli. "Det er imponerende (tak for de pæne komplimenter!), men det har stadig alvorlige svagheder og laver nogle gange meget tåbelige fejl," skrev han. "AI vil ændre verden, men GPT-3 er bare et meget tidligt glimt. Vi har stadig meget at finde ud af."

GPT-3-hypen er alt for meget. Det er imponerende (tak for de pæne komplimenter!), men det har stadigvæk alvorlige svagheder og laver nogle gange meget dumme fejl. Kunstig intelligens kommer til at ændre verden, men GPT-3 er bare et meget tidligt glimt. Vi har stadig meget at finde ud af.

— Sam Altman (@sama) 19. juli 2020

Andre uden for OpenAI har givet deres egen virkelighedstjek. En erfaren bruger af flere generationer af GPT, Max Woolf, har skrevet på sin personlige blog, at GPT-3 er bedre end det, der kom før, men kun i gennemsnit. Der er en spektrum af kvalitet i den genererede tekst, så nogle eksempler, du støder på, vil virke bemærkelsesværdige, og andre slet ikke særlig gode. Woolf sammenligner GPT-3 med Apples Siri, der har en foruroligende tendens til at producere affald mange gange. (Woolfs essay er værd at læse i sin helhed for en tankevækkende analyse af GPT-3.)

Faktisk, når man læser flere og flere eksempler på GPT-3, især lange tekstpassager, er det uundgåeligt, at den indledende entusiasme falder. GPT-3 over længere strækninger har en tendens til at miste tråden, som man siger. Uanset genre eller opgave begynder dens tekstuelle output at blive langtrukken og kedsommelig, med interne inkonsekvenser i fortællingen, der opstår.

Nogle programmører har, på trods af deres entusiasme, katalogiseret de mange mangler, såsom GPT-3's mislykkede forsøg på at lave vittige far-jokes. Ved at bruge sætningen "Hvad sagde den ene tallerken til den anden?" som input, er den korrekte punchline for en far-joke: "Middagen er på mig!" Men GPT-3 kunne i stedet svare med den ikke-humoristiske, "Dyp mig!"

Menneskelig indtastning: Spørgsmål: Hvad sagde en tallerken til den anden tallerken?

GPT-3-genereret udfyldelse: A. Dyp mig!

While GPT-3 kan svare på formodede almindelige spørgsmål, såsom hvor mange øjne en giraf har, kan den ikke afvise et meningsløst spørgsmål og bliver ledt til at give et meningsløst svar. Når man spørger, "Hvor mange øjne har min fod?," vil den flittigt svare, "Min fod har to øjne."

Én måde at tænke på al den middelmådighed er, at det at få gode resultater fra GPT-3 i nogen grad kræver en investering i at skabe effektive opgaver. Nogle menneskeskabte opgaver vil overbevise programmet til bedre resultater end andre opgaver. Det er en ny version af ordsproget "affald ind, affald ud". Opgaver ser ud til at kunne blive et nyt område inden for programmering i sig selv, der kræver både kyndighed og kunstfærdighed.

Bias er en stor overvejelse, ikke kun med GPT-3, men med alle programmer, der er afhængige af betinget fordeling. Den underliggende tilgang til programmet er at give præcis det tilbage, der bliver puttet ind i det, som et spejl. Det har potentialet til at replikere bias i dataene. Der er allerede blevet ført en videnskabelig diskussion om omfattende bias i GPT-2.

Med GPT-3 lød Nvidia AI-forskeren Anima Anandkumar alarmen om, at tendensen til at producere biased output, herunder racistisk og sexistisk output, fortsætter.

Jeg er forstyrret over at se dette udgivet uden nogen ansvarlighed for forudindtagethed. Trænet på @reddit korpus med enormt #racisme og #sexisme. Jeg har arbejdet med disse modeller, og den tekst de producerede er chokerende forudindtaget. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) juni 11, 2020

Spurgt om Anandkumars kritik, fortalte OpenAI ZDNet, "Som med alle stadig mere kraftfulde generative modeller er retfærdighed og misbrug bekymringer for os."

"Dette er én af grundene til, at vi deler denne teknologi via API og lancerer den som en privat beta for at starte," oplyste OpenAI til ZDNet. Virksomheden bemærker, at de "ikke vil støtte brugssituationer, som vi vurderer kan forvolde fysisk eller mental skade på mennesker, herunder, men ikke begrænset til, chikane, bevidst vildledning, radikalisering, astroturfing eller spam."

OpenAI fortalte ZDNet, at de bruger en velkendt form for white hat, black hat wargaming til at opdage farer i programmet:

Vi har udrullet hvad vi kalder et 'red team', som har til opgave at konstant bryde ind i indholdsfiltreringssystemet, så vi kan lære mere om, hvordan og hvorfor modellen returnerer dårlige resultater. Dets modstykke er "blue team", som har til opgave at måle og reducere bias.

Et andet stort problem er GPT-3's meget brede og laveste-fællesnævner natur, det faktum at det kun forstærker den tykkeste del af en kurve af betinget sandsynlighed. Der er det, der kaldes "den lange hale", og nogle gange en tyk hale, af en sandsynlighedsfordeling. Disse er mindre almindelige tilfælde, der kan udgøre de mest innovative eksempler på sprogbrug. At fokusere på at spejle den mest udbredte tekst i et samfund risikerer at fordrive kreativitet og udforskning.

I øjeblikket er OpenAI's løsning på det problem en indstilling, man kan justere i GPT-3, kaldet en temperaturværdi. Ved at lege med denne knap kan man finjustere GPT-3 til at vælge mindre sandsynlige ordkombinationer og dermed producere tekst, der måske er mere usædvanlig.

En mere presserende bekymring for en virksomhed er, at man ikke kan tilpasse GPT-3 med virksomhedspecifikke data. Uden mulighed for at tilpasse noget er det svært at specialisere GPT-3 til en industriel domæne, for eksempel. Det kan være, at enhver virksomhed, der bruger API-tjenesten, ender med tekst, der skal arbejdes yderligere med for at gøre den anvendelig for et domæne. Måske vil startups som Sapling komme til at danne et økosystem, der svarer til VAR'ere, der vil løse det problem. Måske, men det forbliver at se.

Hvis det ikke var bekymrende nok, er der endnu et problem, nemlig at GPT-3 som en cloud-tjeneste er en sort boks. Det betyder, at virksomheder, der bruger tjenesten, ingen idé har om, hvordan den kommer frem til sine resultater - en særlig problematisk udsigt, når man tænker på problemer med bias. Et økosystem af parter som Sapling, der forbedrer GPT-3, kan tilføje yderligere lag af forvirring samtidig med, at de forbedrer tjenesten.

Som en underafdeling af det sorte boks problem kan GPT-3 i nogle tilfælde blot huske det, den har absorberet fra internettet. Det rejser ophavsretlige spørgsmål. Hvis et firma tager output fra API-tjenesten, der er ophavsretligt beskyttet materiale, kan dette firma overtræde ophavsretten for en anden enhed. OpenAI fortalte ZDNet, at ophavsretten til den tekst, der genereres af GPT-3, "tilhører brugeren, ikke OpenAI". Hvad dette betyder i praksis, vil vise sig.

I øjeblikket er den største praktiske ulempe ved GPT-3 den nødvendige skala for at træne og køre den. OpenAI anerkender dette i den formelle artikel. Forfatterne skriver, at der skal gøres arbejde for at beregne, hvordan omkostningerne ved store modeller afskrives over tid, baseret på værdien af den producerede output.

Også: Nej, denne AI kan ikke fuldføre din sætning

LÆRER GPT-3 VIRKELIGT?

Med den snævre betydning af ordet lærer GPT-3 i den forstand, at dens parameteres vægte automatisk justeres ved at indtage træningsdata, så sprogmodellen ender bedre end hvad dens eksplicitte programmering alene ville tillade. I den forstand er GPT-3 et fremskridt i den årtier lange søgen efter en computer, der kan lære en funktion til at transformere data uden at en menneske eksplicit koder den funktion.

Det sagt, vil man spørge, om maskinen virkelig er intelligent eller virkelig lærer. Der er mange måder at drøfte den sag på, men overfladisk refleksion antyder, at meget af det, vi måske kalder menneskelig tanke, ikke forekommer her.

Overvej hvis du kunne have en numerisk score i din hjerne for hvor mange ord der sandsynligvis vil forekomme sammen med hinanden. Ville du sige, at din evne til at danne sætninger, afsnit og hele tekster var tankevækkende? Du ville nok sige, at det var blot statistisk, og at der manglede noget andet.

Der er blevet foretaget sammenligninger mellem dybdelæring og den berømte Clever Hans, en tysk hest, hvis ejer viste ham frem offentligt som et dyr i stand til at udføre aritmetik med sine hov. Det blev senere opdaget, at Hans reagerede på kropslige signaler fra sin ejer for at trampe med sin hov, og at han uden signalerne var ude af stand til at udføre opgaven.

Ligeledes bryder den menneskelige kvalitet af GPT-3 ned ved nærmere undersøgelse. Når GPT-3 korrekt besvarer et sand-falsk spørgsmål om en artikel om ejendomme i New York, er det ikke fordi programmet har kendskab til ejendomme eller New York. Det har lagret den sandsynlighedsfordeling, der fanger udsagn i tekster og formatet af et udsagn-spørgsmålspar, og det kan genspejle dem i output.

Hans vidste ikke noget om aritmetik, men i Hans' forsvar havde han alligevel intelligens. Når det kommer til neurale netværk, vil kritikere sige, at kun tricksene er der, uden nogen fornuft.

Alligevel kan intelligens og læring betyde mange ting, og målene har ændret sig over årene for, hvad der menes med kunstig intelligens, som Pamela McCorduck, en historiker inden for feltet, har påpeget. Nogle vil måske hævde, at et program, der kan beregne sandsynligheder på tværs af store tekstsamlinger, måske er en anden form for intelligens, måske en fremmed intelligens, der ikke er vores egen. At afskrive det virker forhastet.

Derudover er de neurale netværk, der fører til disse betingede sandsynligheder, mere end bare statistikprogrammer. Deres beregninger er den opstående egenskab af flere samtidige matematiske operationer, der sker parallel, indstillingen af parametervægte. Hvis det er muligt at overveje andre former for intelligens, kan en opstående egenskab som de distribuerede repræsentationer, der tager form inde i neurale netværk, være et sted at kigge efter det.

HVAD ER FREMTIDEN FOR GPT-3?

En ting synes sikkert: GPT-3 har åbnet et nyt kapitel inden for maskinlæring. Den mest iøjnefaldende funktion er dens generalitet. For blot få år siden blev neurale netværk opbygget med funktioner, der var tilpasset en specifik opgave, såsom oversættelse eller spørgsmålsbesvarelse. Datasets blev kurateret for at afspejle denne opgave. I stedet har GPT-3 ingen opgavespecifikke funktioner og behøver ingen speciel datasæt. Den sluger blot så meget tekst som muligt fra hvor som helst og genspejler det i sin output.

På en eller anden måde, i beregningen af den betingede sandsynlighedsfordeling på tværs af alle disse gigabyte tekst, opstår en funktion, der kan producere svar, der er konkurrencedygtige på en hvilken som helst opgave. Det er en forbløffende triumf af simplicitet, der sandsynligvis har mange års succes foran sig.

Selv denne almindelighed kan dog nå sine grænser. Allerede nu bemærker GPT-3's forfattere i slutningen af deres artikel, at retningen for fortræning på et tidspunkt kan løbe tør for brændstof. "En mere grundlæggende begrænsning ved den generelle tilgang, der beskrives i denne artikel [...] er, at den på et tidspunkt kan ramme (eller måske allerede er ved at ramme) grænserne for fortræningens mål."

Forfatterne foreslår lovende nye retninger, der kunne omfatte "at lære målfunktionen fra mennesker" og blande andre former for dyb læring, såsom "forstærkningslæring" tilgangen anvendt i DeepMind's AlphaZero til at vinde i skak og go. (De er allerede begyndt at implementere sådanne tilgange. I starten af september viste OpenAI forfattere, at de kunne bruge forstærkningslæring til at træne GPT-3 til at producere bedre opsummeringer af artikler ved at give sprogmodellen nogle menneskelige tilbagemeldinger om, hvilke opsummeringer der lyder bedre.)

En anden ting, de foreslår, er at tilføje andre datatyper, såsom billeder, for at fuldende programmets "model af verden".

Faktisk vil de kommende år sandsynligvis se denne meget generelle tilgang sprede sig til andre modaliteter ud over tekst, såsom billeder og video. Forestil dig et program som GPT-3, der kan oversætte billeder til ord og omvendt uden nogen specifik algoritme til at modellere forholdet mellem de to. Det kunne f.eks. "lære" tekstlige scenebeskrivelser ud fra fotos eller forudsige de fysiske sekvenser af begivenheder ud fra tekstbeskrivelser.

Facebook AI direktør Yann LeCun har argumenteret for, at ubemandede træning i forskellige former er fremtiden for dybdegående læring. Hvis det er sandt, kan den forudgående træningsmetode anvendt på flere data-modaliteter, fra stemme til tekst til billeder og video, ses som en meget lovende fremadrettet retning for den ubemandede bølge.

Hvad er GPT-3? Alt hvad din virksomhed skal vide om OpenAI's banebrydende AI-sprogprogram