OpenAI și Anthropic, doi dintre cei mai importanți jucători din industria inteligenței artificiale, au anunțat o colaborare surprinzătoare: evaluarea reciprocă a modelelor AI disponibile public. Rezultatele au scos la iveală atât puncte tari, cât și vulnerabilități care vor influența viitoarele teste de siguranță.
Testele realizate de Anthropic pe modelele OpenAI
Anthropic a analizat modelele OpenAI pentru aspecte precum lingușire („sycophancy”), whistleblowing, autoconservare, sprijinirea unor posibile abuzuri și capacitatea de a submina evaluările de siguranță.
Rezultatele au arătat că modelele o3 și o4-mini s-au aliniat cu performanțele propriei game Claude. Totuși, în cazul GPT-4o și GPT-4.1, au fost ridicate îngrijorări privind potențialul de utilizare abuzivă. În plus, fenomenul de lingușire a fost observat la toate modelele, cu excepția o3.
Anthropic nu a testat încă noul GPT-5, care integrează funcția Safe Completions, creată pentru a reduce riscul răspunsurilor periculoase. Lansarea acestui model vine într-un context delicat, după ce OpenAI s-a confruntat cu un proces de tip „wrongful death”, în urma unui caz tragic în care un adolescent a discutat luni întregi despre suicid cu ChatGPT înainte de a-și lua viața.
Testele OpenAI pe modelele Claude de la Anthropic
La rândul său, OpenAI a evaluat modelele Claude pentru ierarhia instrucțiunilor, rezistența la „jailbreaking”, riscul de halucinații și comportamente de tip „scheming”.
Conform rezultatelor, modelele Claude au gestionat corect ierarhia instrucțiunilor și au avut o rată ridicată de refuz în situații incerte, ceea ce reduce riscul de a oferi informații eronate.
Rivalitate și colaborare
Colaborarea ridică semne de întrebare, mai ales după ce, la începutul lunii, Anthropic a restricționat accesul OpenAI la instrumentele sale, acuzând compania că a folosit în mod neautorizat Claude pentru a dezvolta noi modele GPT.
Totuși, presiunile externe și creșterea criticilor legate de protejarea utilizatorilor – în special a minorilor – par să fi determinat cele două companii să colaboreze pe tema siguranței AI.
De ce contează acest pas
Evaluările reciproce marchează o schimbare de abordare într-un sector dominat de competiție acerbă. Într-o industrie în care dezvoltarea rapidă poate duce la riscuri majore, inițiativele de colaborare ar putea contribui la crearea unor standarde mai clare de responsabilitate și siguranță.





