OpenAI GPT-4 Ankomst Midt Marts 2023

Microsoft Germany CTO, Andreas Braun, bekræftede, at GPT-4 kommer inden for en uge efter den 9. marts 2023, og at den vil være multimodal. Multimodal AI betyder, at den vil være i stand til at operere med flere typer af input, såsom video, billeder og lyd.

Opdateret: GPT-4 udgivet d. 14. marts 2023

OpenAI har frigivet GPT-4 den 14. marts 2023. Det er en multimodal model, der accepterer billede- og tekstanmodninger.

Modal er en betegnelse, der anvendes inden for maskinindlæring til at beskrive former for input som tekst, men også sanser som lyd, visuelle indtryk, lugt osv.

OpenAI's offentliggørelse beskrev omfanget af GPT-4-udviklingerne:

"...men er mindre dygtig end mennesker i mange virkelige scenarier, viser en menneskelignende præstation på forskellige faglige og akademiske benchmark-tests.

For eksempel består den en simulering af en advokateksamen med en score på omkring top 10% af testdeltagerne; til sammenligning var GPT-3.5's score omkring bund 10%.

Vi har brugt 6 måneder på at justere GPT-4 iterativt ved hjælp af erfaringer fra vores adversarial testsprogram samt ChatGPT, hvilket har resulteret i vores bedste resultater nogensinde (selvom langt fra perfekte) på fakta, styrbarhed og undgåelse af at overskride grænserne."

Multimodale store sprogmodeller

Det store budskab fra meddelelsen er, at GPT-4 er multimodal (SEJ forudsagde GPT-4 er multimodal i januar 2023).

Modalitet er en reference til indtastningstypen, som (i dette tilfælde) en stor sprogmodel arbejder med.

Multimodal kan omfatte tekst, tale, billeder og video.

GPT-3 og GPT-3.5 fungerede kun i en modalitet, tekst.

Ifølge den tyske nyhedsrapport kan GPT-4 muligvis operere i mindst fire modaliteter, billeder, lyd (auditiv), tekst og video.

Dr. Andreas Braun, CTO Microsoft Germany citat:

"Vi vil introducere GPT-4 næste uge, der vil vi have multimodale modeller, som vil tilbyde helt forskellige muligheder - for eksempel videoer..."

Rapporteringen manglede specifikationer for GPT-4, så det er ikke klart, om det, der blev delt om multimodalitet, var specifikt for GPT-4 eller bare generelt.

Microsoft Director Business Strategy Holger Kenn forklarede multimodaliteterne, men rapporteringen var uklar om han refererede til GPT-4 multimodalitet eller multimodalitet generelt.

Jeg mener, hans henvisninger til multimodalitet drejede sig specifikt om GPT-4.

Nyhedsrapporten delte følgende:

"Kenn forklarede, hvad multimodal AI handler om, hvilket kan oversætte tekst ikke kun i overensstemmelse med billeder, men også til musik og video."

Endnu en interessant kendsgerning er, at Microsoft arbejder på "confidence metrics" for at forankre deres AI med fakta og gøre den mere pålidelig.

Microsoft Kosmos-1

Noget, der tilsyneladende blev underdrevet i USA, er, at Microsoft udgav en flersproget sprogmodel kaldet Kosmos-1 i begyndelsen af marts 2023.

Ifølge rapporteringen fra det tyske nyhedssite, Heise.de:

"...holdet udsatte den fortrænede model for forskellige tests med gode resultater i klassifikation af billeder, besvarelse af spørgsmål om billedindhold, automatiseret mærkning af billeder, optisk tekstgenkendelse og talegenerering opgaver."

...Visuel tankegang, dvs. at drage konklusioner om billeder uden at bruge sprog som en mellemstation, synes at være et nøglepunkt her...

Kosmos-1 er en multimodal model, der integrerer modaliteterne af tekst og billeder.

GPT-4 går længere end Kosmos-1, fordi den tilføjer en tredje modalitet, video, og ser også ud til at inkludere modaliteten af lyd.

Fungerer på tværs af flere sprog

GPT-4 ser ud til at fungere på alle sprog. Den beskrives som værende i stand til at modtage et spørgsmål på tysk og besvare på italiensk.

Det er en lidt mærkelig eksempel, for hvem ville stille et spørgsmål på tysk og ønske at modtage et svar på italiensk?

Dette er hvad der blev bekræftet:

"...teknologien er kommet så langt, at den i princippet 'virker på alle sprog': Du kan stille et spørgsmål på tysk og få et svar på italiensk."

For multimodalitet vil Microsoft (OpenAI) 'gøre modellerne omfattende'."

Jeg mener, at det centrale ved denne gennembrud er, at modellen går ud over sprogbarrieren med sin evne til at trække viden fra forskellige sprog. Så hvis svaret er på italiensk, vil den være i stand til at kende det og give svaret på det sprog, hvorpå spørgsmålet blev stillet.

Det ville gøre det lignende målet med Googles multimodale AI kaldet MUM. MUM siges at være i stand til at give svar på engelsk, selvom data kun findes på et andet sprog, som for eksempel japansk.

GPT-4 Anvendelser

Der er ingen aktuel meddelelse om, hvor GPT-4 vil dukke op. Men Azure-OpenAI blev specifikt nævnt.

Google kæmper for at indhente Microsoft ved at integrere en konkurrerende teknologi i sin egen søgemaskine. Denne udvikling forværrer yderligere opfattelsen af, at Google sakker bagud og mangler lederskab inden for forbrugerorienteret AI.

Google integrerer allerede AI i flere produkter såsom Google Lens, Google Maps og andre områder, hvor forbrugerne interagerer med Google. Denne tilgang er at bruge AI som en hjælpeteknologi, der kan hjælpe folk med små opgaver.

Måden Microsoft implementerer det på er mere synlig, og derfor fanger det al opmærksomhed og forstærker billedet af Google som vaklende og kæmper for at indhente.

Læs den officielle OpenAI GPT-4 udgivelsesmeddelelse her.

Læs den originale tyske rapportering her:

GPT-4 kommer næste uge - og den vil være multimodal, siger Microsoft Tyskland

OpenAI GPT-4 Ankommer Midt-Marts 2023

Opdateret: GPT-4 udgivet d. 14. marts 2023

Multimodale store sprogmodeller

Microsoft Kosmos-1

Fungerer på tværs af flere sprog

GPT-4 Anvendelser

Relaterede Artikler