Denne nye teknologi kunne blæse GPT-4 og alt lignende væk

billede3.jpg

For alt den begejstring over chatbot AI-programmet kendt som ChatGPT fra OpenAI og dets efterfølger teknologi GPT-4, er programmerne på den anden side af alt bare software applikationer. Og ligesom alle applikationer, har de tekniske begrænsninger, der kan gøre deres præstation suboptimal.

I en artikel offentliggjort i marts foreslog forskere inden for kunstig intelligens fra Stanford University og Canadas MILA-institut for AI en teknologi, der kunne være langt mere effektiv end GPT-4 - eller noget lignende - til at bearbejde store mængder data og omdanne det til et svar.

Også: Disse tidligere Apple-ansatte ønsker at erstatte smartphones med dette gadget

Kendt som Hyena er teknologien i stand til at opnå tilsvarende præcision på benchmark-tests, som f.eks. spørgsmålsbesvarelse, samtidig med at den bruger en brøkdel af computerkraften. I nogle tilfælde kan Hyena-koden håndtere mængder af tekst, der får GPT-lignende teknologi til at løbe tør for hukommelse og fejle.

"Vores lovende resultater på sub-milliard parameterniveau antyder, at opmærksomhed måske ikke er alt, hvad vi har brug for", skriver forfatterne. Den bemærkning henviser til titlen på en betydningsfuld AI-rapport fra 2017, 'Opmerksomhed er alt, hvad du har brug for'. I den artikel introducerede Googles forsker Ashish Vaswani og kolleger verden for Googles Transformer AI-program. Transformeren blev grundlaget for alle de nyere store sprogmodeller.

Men Transformatoren har en stor fejl. Den bruger noget kaldet "attention", hvor computerprogrammet tager informationen i en gruppe af symboler, såsom ord, og flytter den information til en ny gruppe af symboler, såsom det svar, du ser fra ChatGPT, som er output.

Også:Hvad er GPT-4? Her er alt, du har brug for at vide

Denne opmærksomhedsoperation -- det essentielle værktøj i alle store sprogprogrammer, herunder ChatGPT og GPT-4 -- har "kvadratisk" beregningskompleksitet (Wiki "tidskompleksitet" for beregning). Denne kompleksitet betyder, at mængden af tid, det tager for ChatGPT at producere et svar, stiger med kvadratet af mængden af data, der fodres ind som input.

På et tidspunkt, hvis der er for mange data - for mange ord i prompten, eller for mange streng med samtaler over timevis af chat med programmet - så enten vil programmet blive sløvt med at levere et svar, eller det skal tildeles flere og flere GPU-chips for at køre hurtigere og hurtigere, hvilket kræver øgede beregningskrav.

I den nye artikel, 'Hyena Hierarki: Mod Større Konvolutionelle Sprogmodeller', offentliggjort på arXiv pre-print serveren, foreslår hovedforfatter Michael Poli fra Stanford og hans kolleger at erstatte Transformerens opmærksomhedsfunktion med noget sub-kvadratisk, nemlig Hyena.

Også:Hvad er Auto-GPT? Alt du behøver at vide om det næste kraftfulde AI-værktøj

Forfatterne forklarer ikke navnet, men man kan forestille sig flere grunde til et "Hyena" program. Hyæner er dyr, der lever i Afrika og kan jage i miles og miles. På en måde kan en meget kraftig sprogmodel være som en hyæne, der jager i miles og miles for at finde føde.

Men forfatterne er virkelig bekymrede for "hierarki", som titlen antyder, og hyænefamilier har en streng rangorden, hvor medlemmer af en lokal hyæneklan har forskellige niveauer af rang, der etablerer dominans. På en analog måde anvender Hyena-programmet en række meget simple operationer, som du vil se, igen og igen, så de kombineres til at danne en slags hierarki af dataprocessering. Det er dette kombinatoriske element, der giver programmet dets Hyena-navn.

Også:Fremtidige versioner af ChatGPT kunne erstatte flertallet af de opgaver, som folk udfører i dag, siger Ben Goertzel

Papirets bidragende forfattere inkluderer lysende stjerner inden for AI-verdenen, såsom Yoshua Bengio, videnskabelig direktør for MILA, som modtog en Turing Award i 2019, datalogiens ækvivalent til Nobelprisen. Bengio tilskrives i vid udstrækning udviklingen af opmærksomhedsmekanismen længe før Vaswani og holdet tilpassede den til Transformeren.

Også blandt forfatterne er Christopher Ré, der er tilknyttet Stanford University som associeret professor i datalogi. Han har i de senere år været med til at fremme ideen om AI som "software 2.0".

For at finde en sub-kvadratisk alternativ til opmærksomhed, gik Poli og team i gang med at studere, hvordan opmærksomhedsmekanismen gør det, den gør, for at se om det arbejde kunne gøres mere effektivt.

En ny praksis inden for AI-videnskab, kendt som mekanistisk fortolkning, resulterer i indsigt i, hvad der foregår dybt inde i et neuralt netværk, inden for de beregningsmæssige "kredsløb" af opmærksomhed. Du kan tænke på det som at tage softwaren fra hinanden på samme måde som du ville tage et ur eller en PC fra hinanden for at se dens dele og finde ud af, hvordan den fungerer.

Også:Jeg brugte ChatGPT til at skrive den samme rutine i 12 af de førende programmeringssprog. Her er hvordan det gik

Et arbejde citeret af Poli og team er en række eksperimenter udført af forskeren Nelson Elhage fra AI-startuppen Anthropic. Disse eksperimenter tager transformer-programmerne fra hinanden for at se, hvad opmærksomheden gør.

I det væsentlige fandt Elhage og hans team ud af, at opmærksomhed fungerer på sit mest grundlæggende niveau ved meget simple computeroperationer, såsom at kopiere et ord fra nylig input og indsætte det i output.

For eksample, hvis man begynder at skrive i et stort sprogmodelprogram som ChatGPT en sætning fra Harry Potter og De Vises Sten, som f.eks. "Hr. Dursley var direktør for en virksomhed kaldet Grunnings...", kan det være nok at skrive "D-u-r-s", starten på navnet, for at få programmet til at færdiggøre navnet "Dursley", fordi det har set navnet i en tidligere sætning fra De Vises Sten. Systemet er i stand til at kopiere karaktererne "l-e-y" fra hukommelsen for at autofuldføre sætningen.

Også:ChatGPT er mere som en 'alien intelligens' end en menneskelig hjerne, siger futurist

Imidlertid støder opmærksomhedsoperationen på et kvadratisk kompleksitetsproblem, når antallet af ord vokser og vokser. Flere ord kræver flere af det, der kendes som "vægte" eller parametre, for at køre opmærksomhedsoperationen.

Som forfatterne skriver: "Transformer-blokken er et kraftfuldt værktøj til sekvensmodellering, men den er ikke uden begrænsninger. En af de mest bemærkelsesværdige er den beregningsmæssige omkostning, som stiger hurtigt, når længden af den indtastede sekvens øges."

Selvom de tekniske detaljer om ChatGPT og GPT-4 ikke er blevet offentliggjort af OpenAI, menes det, at de kan have en billion eller flere sådanne parametre. Det kræver flere GPU-chips fra Nvidia at køre disse parametre, hvilket driver omkostningerne op.

For at reducere den kvadratiske beregningsomkostning erstatter Poli og hans team attention-operationen med det, der kaldes en "konvolution", som er en af de ældste operationer i AI-programmer, raffineret tilbage i 1980'erne. En konvolution er bare en filterfunktion, der kan udvælge elementer i data, hvad enten det er pixels i et digitalt foto eller ordene i en sætning.

Også: ChatGPT's succes kunne føre til en skadelig svingning mod hemmeligholdelse inden for kunstig intelligens, siger AI-pioneren Bengio

Poli og teamet laver en slags mash-up: de tager arbejde udført af Stanford-forsker Daniel Y. Fu og hans hold for at anvende konvolutionsfiltre på sekvenser af ord, og de kombinerer det med arbejdet af forskeren David Romero og hans kolleger på Vrije Universiteit Amsterdam, som giver programmet mulighed for at ændre filterstørrelse løbende. Denne evne til fleksibel tilpasning reducerer antallet af dyre parametre eller vægte, som programmet skal have.

billede4.jpg

Resultatet af mash-up'et er, at der kan anvendes en konvolution på en ubegrænset mængde tekst uden at skulle bruge flere og flere parametre for at kopiere mere og mere data. Det er en "attention-fri" tilgang, som forfatterne beskriver det.

"Hyena-operatører formår at formindske forskellen i kvaliteten med opmærksomhed i stor skala," skriver Poli og holdet, "og opnår en tilsvarende perplexitet og resultat i efterfølgende brug med et mindre beregningsbudget." Perplexitet er en teknisk term, der refererer til hvor sofistikeret svaret er, som genereres af et program som ChatGPT.

For at demonstrere Hyenas evne, tester forfatterne programmet mod en række benchmarks, der bestemmer, hvor god et sprogprogram er til forskellige AI-opgaver.

Også: 'Der sker mærkelige nye ting inden for software,' siger Stanford AI professor Chris Ré

Én test er The Pile, en 825 gigabyte samling af tekster samlet i 2020 af Eleuther.ai, en non-profit AI-forskningsvirksomhed. Teksterne er indsamlet fra "høj kvalitet" kilder som PubMed, arXiv, GitHub, US Patent Office og andre, så kilderne er mere stringente end bare Reddit-diskussioner, for eksempel.

Den store udfordring for programmet var at producere det næste ord, når der blev givet en række nye sætninger som input. Hyena-programmet formåede at opnå en tilsvarende score som OpenAI's oprindelige GPT-program fra 2018, med 20% færre beregningsoperationer - "den første opmærksomhedsfri, konvolutarkitektur til at matche GPT-kvalitet" med færre operationer, skriver forskerne.

billede1.jpg

Næste trin var at teste programmet på tænkeopgaver kendt som SuperGLUE, som blev introduceret i 2019 af forskere fra New York University, Facebook AI Research, Googles DeepMind-enheden og University of Washington.

For eksempel, når der gives sætningen "Min krop kaster en skygge over græsset", og to alternativer for årsagen, "solopgangen" eller "græsset blev klippet", og man bliver bedt om at vælge enten det ene eller det andet, skal programmet generere "solopgangen" som den passende output.

I flere opgaver opnåede Hyena-programmet score på eller tæt på en version af GPT, samtidig med at det blev trænet på mindre end halvdelen af mængden af ​​træningsdata.

Også: Sådan bruger du det nye Bing (og hvordan det adskiller sig fra ChatGPT)

Endnu mere interessant er hvad der skete, da forfatterne øgede længden af sætningsinput: flere ord resulterede i bedre forbedring af præstationen. Ved 2.048 "tokens", som du kan tænke på som ord, har Hyena brug for mindre tid til at fuldføre en sprogopgave end opmærksomhedsmodellen.

Ved 64.000 tokens konkluderer forfatterne, "Hyenens hastighed øges med 100 gange" - en hundrede gange forbedring af ydeevnen.

Poli og team argumenterer for, at de ikke blot har prøvet en anderledes tilgang med Hyena, de har "brudt den kvadratiske barrier", hvilket medfører en kvalitativ ændring i, hvor svært det er for et program at beregne resultater.

De antyder også potentielt betydelige ændringer i kvalitet længere nede ad vejen: "At bryde den kvadratiske barriere er et vigtigt skridt mod nye muligheder for dyb læring, såsom at bruge hele lærebøger som kontekst, at generere musik i lang form eller at behandle gigapiksel-skala billeder," skriver de.

Evnen for Hyenaen til at bruge en filter, der strækker sig mere effektivt over tusindvis og atter tusindvis af ord, skriver forfatterne, betyder, at der næsten ikke er nogen grænse for "konteksten" af en forespørgsel til et sprogprogram. Det kunne i virkeligheden huske elementer fra tekster eller tidligere samtaler langt væk fra den aktuelle tråd af samtalen - ligesom hyænerne, der jager i milesvis.

Også: De bedste AI-chatbots: ChatGPT og andre sjove alternativer at prøve

"Hyena operatører har ubegrænset kontekst," skriver de. "Det vil sige, at de ikke kunstigt er begrænset af f.eks. lokalitet og kan lære langtrækkende afhængigheder mellem hvilke som helst elementer af [input]."

Derudover kan programmet anvendes til forskellige datatyper, såsom billeder og måske også video og lyd.

Det er vigtigt at bemærke, at Hyena-programmet, der vises i artiklen, er relativt lille i størrelse sammenlignet med GPT-4 eller endda GPT-3. Mens GPT-3 har 175 milliarder parametre, eller vægte, har den største version af Hyena kun 1,3 milliarder parametre. Det er derfor endnu uvist, hvor godt Hyena vil klare sig i en direkte sammenligning med GPT-3 eller 4.

Men hvis effektiviteten opnået bevarer sig på større versioner af Hyena-programmet, kan det blive en ny paradigme, der er lige så udbredt som opmærksomhed har været i løbet af det seneste årti.

Som Poli og teamet konkluderer: "Simplere sub-kvadratiske designs såsom Hyena, der er baseret på en række enkle retningslinjer og evaluering af mekanistisk tolkningsdygtige benchmarktests, kan danne grundlag for effektive store modeller."

Relaterede Artikler

Se mere >>

Lås op for AI-kraften med HIX.AI!