Antrenarea inteligenței artificiale cu conținut sintetic creat de AI o face să devină autofagă

Oamenii de știință de la univesitățile americane Rice și Stanford au descoperit că utilizarea de conținut generat de AI (sintetic) pentru a antrena noi modele AI generative, în detrimentul conținutului creat de oameni, pare să conducă la rezultate de slabă calitate și să provoace o afecțiune denumită Model Autophagy Disorder (MAD), scrie Futurism. Practic, AI ajunge să se autoconsume și să livreze conținut un conținut tot mai lipsit de diversitate și relevanță.

„Concluzia noastră principală în toate scenariile este că fără suficiente date reale proaspete, viitoarele modele generative sunt pe cale să înregistreze o scădere progresivă a calității și a diversității (rezultatelor livrate). Noi numim această afecțiune Model Autophagy Disorder (MAD).”

cercetătorii

Potrivit cercetătorilor, progresele înregistrate de algoritmii AI generativi pentru imagini, text și alte tipuri de date au condus la tentația de a folosi tot mai multe date sintetice pentru a antrena noile modele de AI.

Dar, folosirea excesivă a acestui model de învățare creează în AI o buclă autofagă ale cărei proprietăți sunt, deocamdată, prost înțelese.

Cu alte cuvinte, fără „date reale proaspete” (adică, date bazate pe munca oamenilor, nu create de computere), este de așteptat ca rezultatele livrate de AI să fie extrem de nesatisfăcătoare și să aibă o calitate foarte slabă.

Practic, atunci când este instruită în mod repetat pe bază de conținut sintetic, AI va fi tentată să lase deoparte informațiile mai puțin relevante (dar nu mai puțin reale), însă acest lucru va avea ca efect dispariția acestora.

Mai departe, modelul AI antrenat va furniza răspunsuri bazate pe date tot mai puțin convergente, care vor suferi de un deficit sever de varietate. Consecința finală va fi că modelul AI aflat în curs de antrenare va suferi de MAD, care reprezintă procesul de auto-înghițire.

Autofagie sintetică

Mai simplu spus, AI se va autoconsuma sau se va autodistruge, iar acest fapt va avea implicații în lumea reală.

Modelele de inteligență artificială au fost instruite pe baza datelor existente online. De asemenea, este, în general, adevărat că un model AI va deveni mai bun pe măsură ce primește mai multe date.

În esență, AI este deja profund inoculată în infrastructura internetului la nivel mondial. Creează conținut, încearcă să analizeze conținut și consumă, de asemenea, conținut.

Și cu cât există mai mult conținut sintetic pe internet, cu atât va fi probabil mai greu pentru companiile de inteligență artificială să se asigure că datele pe care le folosesc pentru instruirea modelelor AI se îndepărtează de acesta.

„Deoarece seturile de date de antrenament pentru modelele AI generative tind să provină de pe Internet, modelele AI de astăzi sunt instruite fără să vrea pe cantități tot mai mari de date sintetizate prin AI. Setul popular de date LAION-5B, care este folosit pentru a antrena modele de ultimă generație text-to-image, cum ar fi Stable Diffusion, conține imagini sintetice prelevate din mai multe generații anterioare de modele generative.”

cercetătorii

Citește și

spot_img

Alte știri din aceeași rubrică

spot_img