Matei Zaharia, profesor și cercetător româno-canadian la Universitatea din California, Berkeley, a publicat alături de alți colegi un document de cercetare care susține că există modificări în rezultatele GPT-4 în timp. Articolul susține o convingere comună, dar neprobată, că modelul de limbaj AI s-a înrăutățit la sarcinile de codificare și compoziție în ultimele luni. Unii experți nu sunt convinși de rezultate, dar afirmă că lipsa de certitudine indică o problemă mai mare cu modul în care OpenAI gestionează lansările sale de modele.
Într-un studiu intitulat “Cum se schimbă comportamentul lui ChatGPT în timp?” publicat pe arXiv, Lingjiao Chen, Matei Zaharia și James Zou, au pus la îndoială performanța constantă a modelelor de limbaj de mari dimensiuni (LLM) ale OpenAI, în special GPT-3.5 și GPT-4. Folosind accesul API, ei au testat versiunile din martie și iunie 2023 ale acestor modele în sarcini precum rezolvarea problemelor matematice, răspunderea la întrebări sensibile, generarea de cod și raționamentul vizual. Cel mai notabil, capacitatea GPT-4 de a identifica numerele prime a scăzut dramatic, de la o acuratețe de 97,6 la sută în martie, la doar 2,4 la sută în iunie. Straniu, GPT-3.5 a arătat o îmbunătățire a performanței în aceeași perioadă.
Această cercetare apare în urma plângerilor frecvente ale oamenilor că performanța GPT-4 a scăzut subiectiv în ultimele luni. Teoriile populare despre de ce includ OpenAI “distilând” modele pentru a reduce suprasarcina lor de calcul în încercarea de a accelera producția și de a economisi resursele GPU, fine-tuning (antrenament suplimentar) pentru a reduce rezultatele dăunătoare care ar putea avea efecte nedorite, și o serie de teorii ale conspirației neîntemeiate, precum reducerea de către OpenAI a capacităților de codificare ale GPT-4 pentru ca mai mulți oameni să plătească pentru GitHub Copilot.
În timp ce acest nou studiu poate părea ca o dovadă concludentă a presupunerilor criticilor GPT-4, alții spun să nu ne grăbim. Profesorul de științe informatice de la Princeton, Arvind Narayanan, crede că descoperirile sale nu dovedesc în mod concludent o scădere a performanței GPT-4 și sunt potențial consistente cu ajustările de fine-tuning făcute de OpenAI. De exemplu, în ceea ce privește măsurarea capacităților de generare a codului, el a criticat studiul pentru evaluarea imediabilității abilității codului de a fi executat mai degrabă decât corectitudinea acestuia.
Cercetătorul AI Simon Willison contestă, de asemenea, concluziile lucrării. “Nu o găsesc foarte convingătoare”, a declarat el pentru Ars. “O parte decentă a criticii lor implică dacă outputul codului este învelit în backticks Markdown sau nu.” El descoperă și alte probleme cu metodologia lucrării. “Mi se pare că au rulat temperatura 0,1 pentru tot,” a spus el. “Face rezultatele ușor mai deterministe, dar foarte puține prompt-uri din lumea reală sunt rulate la acea temperatură, așa că nu cred că ne spune prea multe despre cazurile de utilizare din lumea reală ale modelelor.”