OpenAI și Anthropic își evaluează reciproc modelele AI pentru siguranță și aliniere

Ultima actualizare: 05/09/2025 19:01

Redactia IT MANIA iti ofera in fiecare zi cele mai importante noutati din lumea tehnologiei. Selectam cele mai relevante comunicate de presa, anunturi si lansari cu...

Follow:

OpenAI și Anthropic, doi dintre cei mai importanți jucători din industria inteligenței artificiale, au anunțat o colaborare surprinzătoare: evaluarea reciprocă a modelelor AI disponibile public. Rezultatele au scos la iveală atât puncte tari, cât și vulnerabilități care vor influența viitoarele teste de siguranță.

Continut

Testele realizate de Anthropic pe modelele OpenAI Testele OpenAI pe modelele Claude de la Anthropic Rivalitate și colaborare De ce contează acest pas

Testele realizate de Anthropic pe modelele OpenAI

Anthropic a analizat modelele OpenAI pentru aspecte precum lingușire („sycophancy”), whistleblowing, autoconservare, sprijinirea unor posibile abuzuri și capacitatea de a submina evaluările de siguranță.

Rezultatele au arătat că modelele o3 și o4-mini s-au aliniat cu performanțele propriei game Claude. Totuși, în cazul GPT-4o și GPT-4.1, au fost ridicate îngrijorări privind potențialul de utilizare abuzivă. În plus, fenomenul de lingușire a fost observat la toate modelele, cu excepția o3.

Anthropic nu a testat încă noul GPT-5, care integrează funcția Safe Completions, creată pentru a reduce riscul răspunsurilor periculoase. Lansarea acestui model vine într-un context delicat, după ce OpenAI s-a confruntat cu un proces de tip „wrongful death”, în urma unui caz tragic în care un adolescent a discutat luni întregi despre suicid cu ChatGPT înainte de a-și lua viața.

- Publicitate -

Testele OpenAI pe modelele Claude de la Anthropic

La rândul său, OpenAI a evaluat modelele Claude pentru ierarhia instrucțiunilor, rezistența la „jailbreaking”, riscul de halucinații și comportamente de tip „scheming”.

Conform rezultatelor, modelele Claude au gestionat corect ierarhia instrucțiunilor și au avut o rată ridicată de refuz în situații incerte, ceea ce reduce riscul de a oferi informații eronate.

Rivalitate și colaborare

Colaborarea ridică semne de întrebare, mai ales după ce, la începutul lunii, Anthropic a restricționat accesul OpenAI la instrumentele sale, acuzând compania că a folosit în mod neautorizat Claude pentru a dezvolta noi modele GPT.

Totuși, presiunile externe și creșterea criticilor legate de protejarea utilizatorilor – în special a minorilor – par să fi determinat cele două companii să colaboreze pe tema siguranței AI.

De ce contează acest pas

Evaluările reciproce marchează o schimbare de abordare într-un sector dominat de competiție acerbă. Într-o industrie în care dezvoltarea rapidă poate duce la riscuri majore, inițiativele de colaborare ar putea contribui la crearea unor standarde mai clare de responsabilitate și siguranță.

- Publicitate -

ETICHETAT:ai anthropic openAI

Partajează acest articol

DeRedactia IT MANIA

Follow:

Redactia IT MANIA iti ofera in fiecare zi cele mai importante noutati din lumea tehnologiei. Selectam cele mai relevante comunicate de presa, anunturi si lansari cu date oficiale si complete primite direct de la producatori si companii.