GPT-4o (“o” per “omni”) és un pas cap a una interacció molt més natural entre l’home i l’ordinador: accepta com a entrada qualsevol combinació de text, àudio, imatge i vídeo i genera qualsevol combinació de text, àudio i imatge. sortides. Pot respondre a les entrades d’àudio en tan sols 232 mil·lisegons, amb una mitjana de 320 mil·lisegons, que és similar al temps de resposta humana (s’obre en una finestra nova) en una conversa. Coincideix amb el rendiment de GPT-4 Turbo en text en anglès i codi, amb una millora significativa en el text en idiomes no anglesos, alhora que és molt més ràpid i un 50% més barat a l’API. GPT-4o és especialment millor en la comprensió de la visió i l’àudio en comparació amb els models existents.

Abans de GPT-4o, podríeu utilitzar el mode de veu per parlar amb ChatGPT amb latències de 2,8 segons (GPT-3,5) i 5,4 segons (GPT-4) de mitjana. Per aconseguir-ho, el mode de veu és un pipeline de tres models separats: un model senzill transcriu l’àudio a text, GPT-3.5 o GPT-4 recull text i emet text, i un tercer model senzill converteix aquest text en àudio. Aquest procés significa que la font principal d’intel·ligència, GPT-4, perd molta informació: no pot observar directament el to, diversos altaveus o sorolls de fons, i no pot emetre riures, cantar o expressar emocions.

Amb GPT-4o, vam entrenar un únic model nou d’extrem a extrem en text, visió i àudio, el que significa que totes les entrades i sortides es processen per la mateixa xarxa neuronal. Com que GPT-4o és el nostre primer model que combina totes aquestes modalitats, encara estem explorant la superfície d’explorar què pot fer el model i les seves limitacions.

Article publicat per OpenAi, clica aquí per accedir a l’article sencer