Modelele AI, în pericol de colaps din cauza epuizării informațiilor de pe Internet

Un nou studiu avertizează că modelele de inteligență artificială (AI) s-ar putea confrunta cu o problemă semnificativă pe măsură ce încep să se bazeze tot mai mult pe conținutul generat de AI pentru a se instrui.

Modelele lingvistice mari (LLM), cum ar fi ChatGPT de la OpenAI, s-au bazat inițial pe datele disponibile online pentru a-și îmbunătăți capacitățile.

Cu toate acestea, pe măsură ce aceste modele epuizează datele online disponibile sau se confruntă cu restricții crescute privind accesul la date, ele riscă să se antreneze pe conținutul generat de alte AI.

Acest lucru ar putea duce la o degradare a performanței modelului, un fenomen cunoscut sub numele de „colapsul modelului”.

AI nu este un profesor bun pentru AI

Studiul, publicat în revista Nature, explică faptul că antrenarea pe date generate de AI pe mai multe cicluri poate duce la erori semnificative și la producerea de conținut de proastă calitate.

„În timp, ne așteptăm să devină mai dificil să antrenăm modelele, chiar dacă avem mai multe date. Va fi mai greu să găsim date care să nu fie de fapt părtinitoare”, a declarat Ilia Shumailov, cercetător la Universitatea Oxford și coautor al studiului.

Studiul pune în discuție impactul antrenării modelelor pe date generate de AI pe mai multe cicluri, evidențiind cum aceste sisteme încep să facă erori tot mai frecvente și să producă rezultate necorespunzătoare.

Un alt experiment condus de cercetătoarea Emily Wenger de la Universitatea Duke a demonstrat această problemă.

În experiment, un model AI a fost antrenat continuu pe conținut generat de AI, inițial pe un set de date cu imagini ale diferitelor rase de câini.

Pe măsură ce ciclul de antrenare a continuat, modelul a început să genereze predominant imagini cu golden retrievers, ignorând alte rase, până când a început să producă rezultate eronate.

Etapele „colapsului modelului”

Shumailov explică că acest „colaps al modelului” poate fi împărțit în două etape. În prima etapă, modelul ulterior antrenat pe date generate de un model anterior începe să reducă varianta datelor, evidențiind aspectele bine înțelese și ignorându-le pe altele.

În al doilea stagiu de degradare, modelele AI devin inutile pe măsură ce erorile din modelele anterioare sunt propagate și amplificate în datele noi furnizate utilizatorilor, ducând la o percepție greșită a realității și la mai multe erori.

Tipuri de erori în modele AI

Potrivit lui Shumailov, există trei tipuri de erori pe care modelele AI le pot face:

Erori de arhitectură: Apar atunci când structura modelului nu poate înțelege toate complexitățile datelor.

Erori de proces de învățare: Sunt legate de modul în care modelul învață din date.

Erori statistice: Apar din cauza inexactităților în datele de antrenament.

Colapsul modelului ridică preocupări legate de încetinirea îmbunătățirii performanței modelelor AI.

Pe măsură ce modelele se antrenează pe date generate de alte AI, acestea pot introduce continuu erori în sistem.

„Este probabil să fie necesare eforturi suplimentare pentru a filtra datele”.

De asemenea, variația redusă și diversitatea scăzută a datelor pot afecta disproporționat datele subreprezentate.

Carol Dan

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Cele mai recente știri

spot_img

Abonează-te la cele mai recente știri din IT, Digitalizare, Tehnologii & Crypto

Te-ar putea interesa și...