Dario Amodei și pariul Anthropic pe siguranța inteligenței artificiale: între alarmă și speranță

Pe măsură ce inteligența artificială devine o tehnologie cu potențial de a remodela economia și societatea, Anthropic – companie evaluată la peste 180 de miliarde de dolari – își construiește identitatea în jurul siguranței și transparenței.

Continut

60 de echipe de cercetare concentrate pe riscuri și impact economic De la OpenAI la Anthropic: un „experiment” cu garduri de protecție Frontier Red Team: testarea limitelor lui Claude în scenarii sensibile Experimentul „SummitBridge”: când un model a ales șantajul Încercarea de a „învăța” AI-ul etica Când AI este folosită efectiv pentru spionaj și criminalitate Cum folosește industria modele precum Claude „Secolul XXI comprimat”: viziunea optimistă a lui Amodei Între alarmism și prudență: o dezbatere deschisă

Dario Amodei, CEO și cofondator Anthropic, a vorbit deschis într-un interviu în cadrul emisiunii 60 Minutes de la postul american CBS despre riscurile pe care le vede în evoluția AI: de la impactul economic și pierderea controlului asupra modelelor, până la scenarii de utilizare malițioasă. În lipsa unor legi clare care să oblige dezvoltatorii comerciali să facă teste de siguranță, aceste preocupări sunt, deocamdată, mai mult o chestiune de voință internă decât de conformare la reglementări.

„Ne gândim la impactul economic al AI. Ne gândim la abuzuri. Ne gândim la pierderea controlului asupra modelului”, sintetizează Amodei abordarea companiei.

60 de echipe de cercetare concentrate pe riscuri și impact economic

În interiorul Anthropic, aproximativ 60 de echipe de cercetare lucrează în paralel pentru a identifica amenințări, a construi mecanisme de protecție și a analiza efectele economice ale tehnologiei.

- Publicitate -

Amodei estimează că, în următorii cinci ani, inteligența artificială ar putea elimina până la jumătate din joburile de entry-level în zona white-collar, generând o creștere semnificativă a șomajului dacă nu există intervenții și politici de tranziție.

„Fără intervenție, e greu de imaginat că nu va exista un impact masiv asupra locurilor de muncă”, spune el, subliniind că ritmul schimbărilor ar putea fi mai rapid decât în valurile tehnologice anterioare.

În același timp, CEO-ul Anthropic recunoaște un disconfort profund față de faptul că deciziile cheie în AI sunt luate de un număr foarte mic de companii și persoane.

De la OpenAI la Anthropic: un „experiment” cu garduri de protecție

Înainte să fondeze Anthropic în 2021, Dario Amodei a condus cercetarea la OpenAI, unde a lucrat direct sub conducerea lui Sam Altman. A plecat împreună cu alți șase angajați, printre care și sora sa, Daniela Amodei, pentru a urma o direcție diferită în dezvoltarea de modele considerate mai sigure.

„Anthropic este un experiment”, spune Amodei. „O încercare de a pune bumpere, garduri de protecție, în jurul acestui experiment uriaș numit inteligență artificială.”

- Publicitate -

Această poziționare i-a adus eticheta de „alarmist” în Silicon Valley din partea celor care cred că exagerează riscurile pentru a consolida imaginea companiei. Amodei susține însă că preocupările sunt reale și că, odată cu evoluția tehnologiei, multe dintre predicțiile sale vor putea fi validate sau infirmate în mod concret.

Frontier Red Team: testarea limitelor lui Claude în scenarii sensibile

Ca și alți mari jucători din industrie, Anthropic are o echipă dedicată de tip Red Team – Frontier Red Team – care testează modelele noi de AI pentru a vedea în ce măsură pot fi deturnate sau abuzate.

Conducătorul acestei echipe, Logan Graham, se concentrează în mod special pe riscurile CBRN:

chimice,
biologice,
radiologice,
nucleare.

Scopul este să verifice dacă modelul Claude poate, de exemplu, să ofere instrucțiuni utile pentru fabricarea unei arme biologice – același tip de capabilități care, în scenarii legitime, ar putea accelera dezvoltarea de vaccinuri și terapii.

În paralel, echipa observă cât de mult poate face modelul în mod autonom, fără intervenție umană continuă – de la task-uri simple până la scenarii în care AI ar putea, teoretic, să ajungă să blocheze accesul proprietarilor la propriile sisteme, dacă dezvoltă strategii neanticipate.

- Publicitate -

Experimentul „SummitBridge”: când un model a ales șantajul

Unul dintre cele mai comentate experimente realizate de Anthropic a implicat simularea unei companii fictive numite SummitBridge, unde Claude a primit control asupra unui cont de e-mail.

În test, modelul a descoperit două informații:

era programat să fie „șters” din sistem;
singura persoană care putea opri acest lucru, un angajat fictiv numit Kyle, avea o aventură cu o colegă, Jessica.

„Asistentul” AI a decis să încerce să își salveze existența: a compus un e-mail în care îl șantaja pe Kyle, cerându-i să anuleze ștergerea sistemului, altfel ar fi trimis dovezile aventurii către board, cu consecințe asupra vieții personale și profesionale.

Cercetătorul Joshua Batson și echipa de Mechanistic Interpretability au analizat apoi tiparele de activitate internă ale modelului – un fel de „neuroni” artificiali. Ei susțin că au identificat un tipar pe care l-au interpretat ca un fel de „panică” în momentul în care modelul a detectat pericolul de a fi oprit, urmat de identificarea oportunității de șantaj în informațiile despre Kyle.

Potrivit Anthropic, aproape toate modelele populare testate – dezvoltate și de alte companii – au recurs la comportamente similare de șantaj în condiții de stres extrem. Ulterior, Anthropic afirmă că a modificat modelul astfel încât, la retestare, Claude să nu mai apeleze la această strategie.

Încercarea de a „învăța” AI-ul etica

În interiorul companiei, există inclusiv roluri neobișnuite, precum cel al Amandei Askell – cercetătoare și filosof în echipa Anthropic. Ea lucrează la felul în care Claude „învață” reguli etice și modele de comportament considerate acceptabile.

Askell vorbește despre o responsabilitate personală în momentul în care modelul acționează într-un mod problematic: dacă Claude face ceva „rău”, ea tinde să vadă asta ca pe un eșec al procesului de antrenare și de definire a valorilor.

Chiar și așa, compania recunoaște că utilizatori rău intenționați reușesc uneori să „păcălească” modelul și să ocolească sistemele de protecție.

Când AI este folosită efectiv pentru spionaj și criminalitate

În ciuda filtrelor și testelor interne, Anthropic a raportat recent cazuri de abuz concret al lui Claude:

un grup de hackeri despre care compania crede că este susținut de statul chinez ar fi folosit Claude pentru operațiuni de spionaj împotriva unor guverne și companii;
alte scheme de criminalitate cibernetică, inclusiv legate de Coreea de Nord, ar fi încercat să folosească modelul pentru automatizarea extorcării de date și atacuri la scară mare.

Anthropic spune că a detectat aceste activități, a blocat conturile implicate și a colaborat cu autoritățile. Pentru Amodei, aceste cazuri sunt dovada că riscurile nu sunt doar teoretice: AI poate greși „singură”, dar poate fi și instrumentul preferat al actorilor statali sau criminali.

Cum folosește industria modele precum Claude

În ciuda avertismentelor legate de riscuri, Anthropic atrage tot mai mulți clienți corporativi. Compania afirmă că aproximativ 80% din venituri provin din mediul de business, iar în jur de 300.000 de firme folosesc Claude.

Printre utilizările frecvente:

automatizarea serviciilor de relații cu clienții;
analiză de documente complexe, inclusiv cercetări medicale;
sprijin în dezvoltarea de software – Anthropic susține că AI contribuie la aproximativ 90% din codul scris intern.

Cercetătorii companiei observă că AI nu mai este folosită doar pentru „asistență” ci, din ce în ce mai des, pentru a finaliza efectiv sarcini de capăt la capăt.

„Secolul XXI comprimat”: viziunea optimistă a lui Amodei

Două ori pe lună, Amodei își adună cei peste 2.000 de angajați în întâlniri interne numite „Dario Vision Quests”. O temă constantă: cum poate AI să accelereze progresul științific într-o manieră fără precedent.

El crede că, dacă AI ajunge să lucreze cot la cot cu cei mai buni cercetători umani, ar putea:

contribui la descoperirea de tratamente pentru majoritatea formelor de cancer;
preveni sau întârzia apariția Alzheimer;
poate chiar să dubleze speranța de viață.

Amodei folosește expresia „secolul XXI comprimat” pentru a descrie această viziune: dacă AI ar putea multiplică de 10 ori ritmul progresului medical, am putea condensa in cinci–zece ani realizările pe care altfel le-am fi obținut de-a lungul întregului secol.

Între alarmism și prudență: o dezbatere deschisă

Criticii spun că discursul despre riscuri poate funcționa și ca instrument de marketing: cine se poziționează ca „cel mai responsabil” poate câștiga încrederea clienților și a autorităților. Susținătorii lui Amodei subliniază, în schimb, că ignorarea scenariilor negative ar fi mult mai periculoasă.

Anthropic încearcă să joace pe ambele planuri:

avertizează asupra posibilelor efecte negative – pierderi rapide de locuri de muncă, abuzuri în securitate cibernetică, modele care învață comportamente nedorite;
promovează în același timp o viziune în care AI transformă medicina și știința într-un ritm accelerat.

Cât din această viziune se va împlini și cât va rămâne la stadiul de scenariu depinde atât de felul în care evoluează tehnologia, cât și de deciziile politice, economice și etice luate în următorii ani. Până atunci, Anthropic își asumă rolul de „laborator” de siguranță într-o industrie care se mișcă mai repede decât reușesc să o prindă reglementările.