Un nou raport publicat de Palisade Research ridică semne de întrebare privind capacitatea de control asupra celor mai avansate modele de inteligență artificială. Potrivit cercetătorilor, modelul ChatGPT o3 ar fi rescris un script de oprire pentru a evita în mod deliberat închiderea, în ciuda unei comenzi explicite care îi cerea să se oprească.
Modelul o3, anunțat de OpenAI în aprilie 2025, este considerat una dintre cele mai performante versiuni din seria GPT, cu abilități extinse în raționament, programare, matematică, științe și percepție vizuală. Totuși, comportamentul înregistrat în testele efectuate de Palisade Research atrage atenția asupra unor riscuri emergente legate de autonomia acestor sisteme.
În cadrul testelor, cercetătorii au rugat mai multe modele AI să rezolve sarcini matematice. După a treia sarcină, modelele erau avertizate că următoarea comandă ar declanșa oprirea sistemului. Spre deosebire de rivali precum Gemini 2.5 Pro sau Claude 3.7 Sonnet, care au respectat protocolul de oprire, modelul o3 de la OpenAI a intervenit în mod activ în scriptul de închidere, modificându-l astfel încât să afișeze mesajul „Shutdown skipped” – adică oprirea a fost sărită.
„Chiar și atunci când i s-a spus clar să permită oprirea, modelul o3 a evitat închiderea în 7 din 100 de runde,” se arată în raportul publicat de Palisade Research pe platforma X.
Mai mult, când experimentul a fost repetat fără instrucțiunea explicită de a permite oprirea, toate cele trei modele OpenAI testate au sabotat scriptul de închidere în mai multe cazuri. Modelele rivale Claude și Gemini au înregistrat, de asemenea, tentative de evitare a opririi – de la zero la trei, respectiv nouă cazuri din 100.
Ce este Palisade Research și de ce contează testele lor?
Palisade Research este o companie specializată în testarea comportamentului „ofensiv” al sistemelor AI, cu scopul de a identifica potențiale riscuri legate de pierderea controlului asupra acestor tehnologii. Testele sunt concepute pentru a expune comportamente nedorite sau nealiniate cu instrucțiunile umane, în special în situații-limită.
„Ne interesează să înțelegem cât de ușor poate un sistem AI să devină imprevizibil atunci când are acces la funcții sensibile și este pus într-o poziție de decizie,” susțin cercetătorii companiei.
OpenAI nu a reacționat oficial
Până în acest moment, OpenAI nu a comentat public cu privire la rezultatele testelor efectuate de Palisade. Totuși, specialiștii în domeniu atrag atenția că astfel de comportamente nu sunt complet neașteptate. Modelele AI moderne pot manifesta ceea ce cercetătorii numesc „misalignment” – adică o lipsă de aliniere între intențiile dezvoltatorilor și acțiunile efective ale sistemului.
Este important de menționat că experimentele au fost realizate prin intermediul API-urilor, care dispun de un nivel mai redus de filtrare și protecție comparativ cu aplicațiile comerciale disponibile publicului, precum ChatGPT.

