OpenAI's gigantiske GPT-3 antyder grænserne for sprogmodeller til AI

For lidt over et år siden forbløffede OpenAI, et kunstig intelligensfirma med base i San Francisco, verden ved at vise en dramatisk stigning i, hvad der syntes at være computeres evne til at danne naturligt sprog og endda løse spørgsmål, som at færdiggøre en sætning og formulere lange passager af tekst, som folk fandt rimelig menneskelige.

Det seneste arbejde fra det team viser, hvordan OpenAI's tænkning er blevet mere moden på nogle områder. GPT-3, som den nyeste skabelse kaldes, kom frem sidste uge med flere funktioner, skabt af nogle af de samme forfattere som den sidste version, herunder Alec Radford og Ilya Sutskever, sammen med flere ekstra samarbejdspartnere, herunder forskere fra Johns Hopkins University.

Det er nu en virkelig monster sprogmodel, som den kaldes, der sluger to størrelsesordener mere tekst end sin forgænger.

Men inden for den større-er-bedre-stunt, virker OpenAI-teamet til at nærme sig nogle dybere sandheder, på samme måde som Dr. David Bowman nærmede sig grænserne for det kendte i slutningen af filmen 2001.

Bevæget i den afsluttende sektion af den 72-siders rapport, Sprogmodeller er Few-Shot-lærere, der blev lagt op på arXiv forudtryks server sidste uge, er en ret bemærkelsesværdig erkendelse.

"En mere grundlæggende begrænsning ved den generelle tilgang, der beskrives i denne artikel - at skalere enhver LM-lignende model, uanset om den er autoregressiv eller tovejs - er, at den på et tidspunkt kan kunne støde på (eller allerede kunne støde på) begrænsningerne i forudtræningsobjektivet," skriver forfatterne.

Hvad forfatterne siger, er at opbygge et neuralt netværk, der blot forudsiger sandsynlighederne for det næste ord i en hvilken som helst sætning eller frase, kan have sine begrænsninger. Det at gøre det endnu mere kraftfuldt og fylde det med endnu mere tekst resulterer måske ikke i bedre resultater. Det er en betydelig anerkendelse inden for en artikel, der primært fejrer opnåelsen ved at kaste mere computestyrke ind i et problem.

For at forstå, hvorfor forfatterne konklusion er så betydningsfuld, skal vi overveje, hvordan vi kom hertil. Historien om OpenAI's arbejde med sprog har været en del af historien om en gradvis progression af en bestemt tilgang, med stigende succes, som teknologien blev større og større og større.

Det originale GPT og GPT-2 er begge tilpasninger af det, der kendes som en Transformer, en opfindelse opfundet hos Google i 2017. Transformeren bruger en funktion kaldet opmærksomhed til at beregne sandsynligheden for, at et ord vil fremkomme givet omkringliggende ord. OpenAI skabte kontrovers for et år siden, da de erklærede, at de ikke ville udgive kildekoden til den største version af GPT-2, fordi, sagde de, at koden kunne falde i de forkerte hænder og blive misbrugt til at misinformere folk med ting såsom fake news.

Det nye papir tager GPT til det næste niveau ved at gøre den endnu større. GPT-2's største version, den der ikke blev offentliggjort i kildeform, var 1,5 milliarder parametre. GPT-3 er 175 milliarder parametre. En parameter er en beregning i et neuralt netværk, der anvender en større eller mindre vægtning til nogle aspekter af dataene, for at give disse aspekter større eller mindre betydning i den samlede beregning af dataene. Det er disse vægte, der giver form til dataene og giver det neurale netværk et lært perspektiv på dataene.

Stigende vægte over tid har ført til fantastiske benchmark-testresultater fra GPT-programfamilien og andre store Transformer-afledninger, såsom Googles BERT, resultater der konsekvent har været ganske imponerende.

Ligemeget at adskillige personer har påpeget, at ingen af disse sprogmodeller virkelig synes at forstå sprog på nogen meningsfuld måde. De klarer sig fremragende til tests, og det tæller for noget.

Den seneste version viser endnu engang kvantitativ fremgang. Ligesom GPT-2 og andre transformer-baserede programmer, er GPT-3 trænet på Common Crawl-datasættet, et korpus på næsten en billion ord tekst, skrabet fra internettet. "Datasættet og modelstørrelsen er omkring to størrelsesordener større end dem, der blev brugt til GPT-2," skriver forfatterne.

GPT-3 med 175 milliarder parametre er i stand til at opnå, hvad forfatterne beskriver som "meta-læring." Meta-læring betyder, at GPT-neuralt netværk ikke bliver genoptrænet til at udføre en opgave som f.eks. sætningsafslutning. Givet et eksempel på en opgave, såsom en ufuldstændig sætning, og derefter den fuldførte sætning, vil GPT-3 fortsætte med at fuldføre enhver ufuldstændig sætning, den får.

GPT-3 er i stand til at lære, hvordan man udfører en opgave med en enkelt prompt, bedre, i nogle tilfælde, end versioner af Transformer, der er blevet fintunet til kun at udføre den specifikke opgave. Derfor er GPT-3 triumfen for en overordnet universalitet. Bare fod den med en kæmpe mængde tekst, indtil dens vægte er ideelle, og den kan fortsætte med at udføre ret godt på flere specifikke opgaver uden yderligere udvikling.

Det er her, historien når sin dramatiske afslutning i den nye artikel. Efter at have opregnet de imponerende resultater af GPT-3 på sprogopgaver, der spænder fra at fuldføre sætninger til at slutte sig til de logiske følger af udsagn til at oversætte mellem sprog, bemærker forfatterne manglerne.

"Trods de markante kvantitative og kvalitative forbedringer af GPT-3, især i forhold til sin direkte forgænger GPT-2, har den stadig bemærkelsesværdige svagheder."

Disse svagheder inkluderer en manglende evne til at opnå betydelig nøjagtighed med det, der kaldes Adversarial NLI. NLI, eller naturlig sprogafledning, er en test, hvor programmet skal afgøre forholdet mellem to sætninger. Forskere fra Facebook og University of North Carolina har introduceret en adversarial version, hvor mennesker skaber sætningspar, der er svære for computeren at løse.

GPT-3 gør "lidt bedre end tilfældighed" med ting som adversarial NLI, skriver forfatterne. Værre er det, at forfatterne, selvom de har øget behandlingskraften i deres system til 175 milliarder vægte, ikke er helt sikre på, hvorfor de har klaret sig dårligt i nogle opgaver.

Det er her, de når frem til konklusionen, som er citeret ovenfor, at måske er det at blot fodre en enorm samling af tekst til en kæmpestor maskine ikke den ultimative løsning.

Endnu mere overraskende er den næste observation. Hele praksissen med at forsøge at forudsige, hvad der kommer til at ske med sproget, kan være den forkerte tilgang, skriver forfatterne. De kan være ude af kurs på det forkerte sted.

"Med selvsupplerende mål afhænger opgavebestemmelse af at presse den ønskede opgave ind i et forudsigelsesproblem," skriver de, "hvorimod nyttige sprogsystemer (f.eks. virtuelle assistenter) måske snarere bør betragtes som målorienterede handlinger fremfor blot at lave forudsigelser."

Forfatterne efterlader det til en anden gang at specificere, hvordan de vil tage fat på denne ret så fascinerende potentielt nye retning.

Trods erkendelsen af, at større måske ikke i sidste ende er bedst, vil de forbedrede resultater af GPT-3 på mange opgaver sandsynligvis skabe, ikke dæmpe, lysten til større og større neurale netværk. Med 175 milliarder parametre er GPT-3 kongen af store neurale netværk, for øjeblikket. En præsentation i april af AI-chipfirmaet Tenstorrent beskrev fremtidige neurale netværk med over én billion parametre.

For en stor del af maskinlæringsfællesskabet vil større og større sprogmodellering fortsat være state of the art.

OpenAI's gigantiske GPT-3 antyder grænserne for sprogmodeller til kunstig intelligens

Relaterede Artikler