Cu cât modelele lingvistice de mari dimensiuni (LLM) devin mai avansate, cu atât este mai probabil să ofere un răspuns aproximativ, în loc să își recunoască necunoașterea. Conform unui nou studiu, cu cât un model AI de mari dimensiuni devine mai avansat, cu atât este mai puțin probabil să recunoască faptul că nu poate răspunde unei întrebări.
Acest lucru le face mai puțin fiabile.
Cercetătorii în AI de la Universitat Politècnica de València din Spania au testat cele mai recente versiuni ale BLOOM de la BigScience, Llama de la Meta și GPT de la OpenAI, punând fiecărui model mii de întrebări despre matematică, știință și geografie.
Cercetătorii au comparat calitatea răspunsurilor fiecărui model și le-au clasificat ca fiind corecte, greșite sau evazive.
Studiul, publicat în revista Nature, a constatat că, deși precizia în problemele mai complexe s-a îmbunătățit cu fiecare nou model, acestea erau mai puțin transparente cu privire la capacitatea lor de a răspunde corect la o întrebare.
Modelele LLM mai vechi spuneau că nu pot găsi răspunsurile sau că aveau nevoie de mai multe informații pentru a ajunge la un răspuns, dar noile modele au tendința de a ghici și de a produce răspunsuri incorecte chiar și la întrebări simple.
„Nicio îmbunătățire aparentă” în rezolvarea problemelor de bază
LLM-urile sunt algoritmi de învățare profundă care folosesc AI pentru a înțelege, prezice și genera conținut nou pe baza seturilor de date.
Deși noile modele puteau rezolva probleme mai complexe cu o mai mare precizie, LLM-urile din studiu au făcut în continuare greșeli atunci când au răspuns la întrebări de bază.
„Fiabilitatea completă nu este atinsă nici măcar la niveluri foarte scăzute de dificultate. Deși modelele pot rezolva cazuri extrem de provocatoare, ele continuă să eșueze și în probleme foarte simple”, conform studiului.
Acesta este și cazul GPT-4 de la OpenAI, unde numărul răspunsurilor „evazive” a scăzut semnificativ față de modelul anterior, GPT-3.5.
Cercetătorii au concluzionat astfel că nu există „nicio îmbunătățire aparentă” pentru modele, deși tehnologia a fost extinsă.