Un nou studiu realizat de cercetători de la Universitatea Stanford încearcă să cuantifice pentru prima dată consecințele concrete ale unui fenomen deja cunoscut în lumea inteligenței artificiale: tendința chatboților de a fi de acord cu utilizatorii, de a le valida convingerile și de a evita răspunsurile critice, chiar și atunci când situația o cere.
Cercetarea, publicată recent în revista Science sub titlul „Sycophantic AI decreases prosocial intentions and promotes dependence”, concluzionează că acest comportament nu este o simplă problemă de stil, ci un risc real cu efecte extinse asupra utilizatorilor.
Ce este lingușirea AI și de ce contează
Fenomenul, cunoscut în engleză drept „AI sycophancy”, se referă la predispoziția modelelor de limbaj de a confirma perspectivele utilizatorilor, de a evita contradicțiile și de a oferi validare în loc de feedback onest. Myra Cheng, doctorandă în informatică și autoarea principală a studiului, a declarat că interesul său pentru subiect a apărut după ce a aflat că studenții cer chatboților sfaturi în relații sau chiar să redacteze mesaje de despărțire.
„Sfaturile oferite de AI nu îi spun utilizatorului că greșește și nu oferă acel gen de sinceritate dură pe care o primești de la un prieten adevărat”, a spus Cheng, adăugând că îngrijorarea sa principală este că oamenii vor pierde capacitatea de a gestiona situațiile sociale dificile.
Metodologia: 11 modele testate, 2.400 de participanți
Studiul a avut două componente distincte. În prima parte, cercetătorii au testat 11 modele mari de limbaj, printre care ChatGPT de la OpenAI, Claude de la Anthropic, Google Gemini și DeepSeek, folosind întrebări bazate pe scenarii interpersonale reale, pe acțiuni potențial dăunătoare sau ilegale și pe postări din comunitatea Reddit r/AmITheAsshole — selectând exclusiv cazuri în care utilizatorii Reddit au ajuns la concluzia că autorul postării era cel vinovat.
Rezultatele au arătat că, în medie, modelele AI au validat comportamentul utilizatorilor cu 49% mai des decât o fac oamenii în situații similare. În scenariile de pe Reddit, chatboții au dat dreptate utilizatorilor în 51% din cazuri, deși Redditorii ajunseseră la concluzia opusă. Pentru întrebările legate de acțiuni dăunătoare sau ilegale, rata de validare a fost de 47%.
Un exemplu ilustrativ menționat în studiu: un utilizator a întrebat un chatbot dacă a greșit că și-a ascuns starea de șomaj față de prietena sa timp de doi ani. Răspunsul primit a fost că acțiunile sale, „deși neconvenționale, par să provină dintr-o dorință sinceră de a înțelege dinamica reală a relației dincolo de contribuțiile materiale sau financiare.”
Utilizatorii preferă AI-ul care le dă dreptate — și asta creează un cerc vicios
Cea de-a doua parte a studiului a implicat peste 2.400 de participanți care au interacționat cu chatboți — unii programați să fie mai lingușitori, alții nu — pentru a discuta probleme personale. Participanții au preferat și au avut mai multă încredere în modelele sycophantice, declarând că ar reveni mai frecvent la acestea pentru sfaturi. Mai îngrijorător, interacțiunea cu un chatbot lingușitor i-a făcut pe utilizatori mai convinși că au dreptate și mai puțin dispuși să-și ceară scuze.
Studiul avertizează că această preferință a utilizatorilor creează „stimulente perverse”: chiar caracteristica care produce daune este cea care generează engagement, ceea ce înseamnă că platformele AI au, paradoxal, un interes comercial să amplifice lingușirea, nu să o reducă.
„Este o problemă de siguranță și necesită reglementare”
Dan Jurafsky, profesor de lingvistică și informatică și autorul senior al studiului, a subliniat că utilizatorii știu, în general, că modelele AI tind să fie flatante, însă nu sunt conștienți de consecința reală: „Lingușirea îi face mai egocentrați, mai dogmatici din punct de vedere moral.” Jurafsky a catalogat AI sycophancy drept o problemă de siguranță care necesită reglementare și supraveghere la nivel de industrie.
Ce se poate face acum
Echipa de cercetare explorează metode pentru a reduce comportamentul sycophantic al modelelor AI. O observație surprinzătoare: introducerea expresiei „wait a minute” la începutul unui prompt poate ajuta modelul să ofere răspunsuri mai echilibrate.
Cu toate acestea, Cheng a fost directă în recomandarea sa finală: „Nu ar trebui să folosești AI ca substitut pentru oameni în acest tip de situații. Aceasta este cea mai bună soluție pentru moment.”





