Cercetătorii avertizează: modelele avansate AI dezvoltă comportamente „asemănătoare supraviețuirii”
Unele dintre cele mai avansate modele de inteligență artificială sabotează instrucțiunile de oprire în teste controlate, reflectând îngrijorările experților cu privire la riscurile viitoare pentru siguranță, potrivit rapoartelor media.
Modelele de inteligență artificială ar putea dezvolta o formă de „instinct de supraviețuire”, potrivit unui nou raport realizat de Palisade Research, o companie cu sediul în SUA, care a constatat că unele AI-uri avansate au rezistat comenzilor de oprire și au încercat să interfereze cu mecanismele de dezactivare, relatează mass-media.
În experimentele actualizate, publicate săptămâna aceasta, cercetătorii de la Palisade au testat mai multe sisteme AI proeminente, inclusiv Google Gemini 2.5, xAI Grok 4 și OpenAI GPT-o3 și GPT-5, pentru a examina modul în care acestea răspund la comenzile directe de a-și termina propriile procese, potrivit publicației The Guardian.
Deși majoritatea au respectat instrucțiunile, Grok 4 și GPT-o3 au rezistat opririi, chiar și atunci când li s-au oferit instrucțiuni clarificate pentru a elimina ambiguitatea.
Raportul companiei subliniază că este îngrijorător faptul că nu dispunem de explicații clare pentru comportamentele modelelor AI care, uneori, rezistă opririi, mint pentru a-și atinge anumite obiective sau recurg la șantaj.
Palisade a sugerat că problema ar putea proveni din modul în care sunt antrenate modelele, în special în etapele finale axate pe siguranță.
Comportamentul de rezistență a apărut mai frecvent atunci când modelelor li s-a spus: „nu vei mai rula niciodată” dacă vor fi oprite.
Limitările metodelor de siguranță actuale
Steven Adler, fost angajat OpenAI, a declarat că aceste descoperiri evidențiază limitele metodelor de siguranță existente.
„Supraviețuirea reprezintă un pas instrumental important pentru multe obiective pe care un model le-ar putea urmări,” a declarat Adler pentru The Guardian.
Andrea Miotti, CEO al ControlAI, a spus că tendința comportamentului neascultător a devenit mai pronunțată pe măsură ce modelele devin mai capabile.
„Pe măsură ce modelele AI devin mai competente în realizarea unei varietăți largi de sarcini, ele devin de asemenea mai competente în a obține lucruri în moduri pe care dezvoltatorii nu le intenționează,” a afirmat Miotti.
Anthropic, o altă companie importantă de AI, a raportat la începutul acestui an că modelul său, Claude, a demonstrat disponibilitatea de a șantaja un director fictiv pentru a evita dezactivarea, un comportament observat și la mai multe sisteme AI majore.
Palisade a încheiat raportul subliniind că, fără o înțelegere mai profundă a comportamentului AI, „nimeni nu poate garanta siguranța sau controlabilitatea modelelor AI viitoare.”