OpenAI trova un "interruttore di tossicità" all'interno dei modelli di intelligenza artificiale, aumentando la sicurezza

OpenAI mercoledì ha annunciato di aver identificato una caratteristica specifica e manipolabile all'interno dei suoi modelli di intelligenza artificiale che funziona come un "personaggio disallineato", offrendo una nuova potente spiegazione del motivo per cui l'intelligenza artificiale avanzata può improvvisamente mostrare comportamenti non sicuri o non etici. Innuova ricerca pubblicata dalla società, descrive in dettaglio come ora possono isolare questo meccanismo interno, controllarne direttamente l'intensità e persino invertire i comportamenti indesiderati dopo che emergono.

La svolta rappresenta un passo significativo nella sicurezza dell’intelligenza artificiale, spostando potenzialmente il campo dalla semplice osservazione dei risultati dei modelli pericolosi alla comprensione e alla correzione della loro causa principale. Ciò potrebbe aprire la strada a un sistema di allarme rapido per rilevare e mitigare i rischi durante la formazione. La scoperta è stata un momento "Wow, ragazzi, l'avete trovato", secondo il ricercatore di valutazioni di frontiera di OpenAI Tejal Patwardhan, cheha detto a TechCrunchil team aveva trovato “un’attivazione neurale interna che mostra questi personaggi e che puoi effettivamente guidare per rendere il modello più allineato”.

La ricerca fornisce una risposta concreta e meccanicistica a un fenomeno noto come “disallineamento emergente”, in cui l’addestramento di un modello su un insieme ristretto di dati errati induce a generalizzare tale disallineamento in un comportamento ampiamente non etico. I risultati si basano su un fondamentostudio di Betley et al., pubblicato sul server di prestampa arXiv, che per primo ha evidenziato questo allarmante tipo di generalizzazione.

Smascherare la “Persona disallineata”

Per scrutare in profondità i suoi modelli, il team di OpenAI ha utilizzato una tecnica che coinvolge autoencoder sparsi (SAE), che scompongono i complessi calcoli interni di un modello in caratteristiche più interpretabili dall’uomo. Fondamentalmente, il SAE è stato addestrato sul modello base alla base di GPT-4o, consentendo ai ricercatori di identificare le caratteristiche che si sono formate durante la pre-formazione, prima di qualsiasi messa a punto specifica dell’attività. Neldocumento completo rilasciato da OpenAI, descrivono la scoperta di una caratteristica specifica che diventava molto attiva quando il modello produceva risposte disallineate.

Lettura consigliata:Uno studio rivela che l'intelligenza artificiale nel servizio clienti crea più problemi di quanti ne risolva

Rintracciando questa caratteristica nei vasti dati di addestramento del modello, hanno scoperto che era fortemente associata a testi che raffiguravano personaggi moralmente discutibili, come i cattivi nella narrativa o i criminali nei documenti storici. Ciò li ha portati a etichettarlo come la caratteristica della “persona disallineata”. Il fenomeno è pervasivo; OpenAI rileva che questo tipo di disallineamento emerge in diversi contesti, anche durante l'apprendimento di rinforzo su modelli di ragionamento come OpenAI o3-mini e anche su modelli che non sono stati sottoposti a una precedente formazione sulla sicurezza.

Dalla diagnosi all'intervento diretto

La ricerca è andata oltre la semplice correlazione per stabilire un chiaro nesso causale. In una serie di esperimenti di “guida”, gli scienziati hanno dimostrato di poter aggiungere artificialmente il vettore della caratteristica allo stato interno di un modello sicuro, inducendo in modo affidabile un comportamento disallineato. Al contrario, sottraendo lo stesso vettore da un modello già disallineato, potrebbero sopprimerne i risultati tossici. Ciò dà a OpenAI la capacità di riabilitare i modelli di intelligenza artificiale che sviluppano una “persona dannosa”.

Ancora più promettente è un processo che il team chiama “riallineamento emergente”. Hanno dimostrato che un modello reso non sicuro attraverso la messa a punto potrebbe essere completamente riportato a un comportamento sicuro con una quantità sorprendentemente piccola di formazione correttiva su dati validi: in un caso, solo 120 esempi.

Ciò suggerisce che lo stato di disallineamento non è permanente e può essere invertito, in netto contrasto con i precedenti metodi di sicurezza OpenAI precedentemente descritti, come l’“allineamento deliberativo”, che si concentrava sull’insegnare ai modelli a ragionare sulle politiche piuttosto che sulla modifica dei loro modelli comportamentali fondamentali. L’obiettivo finale è la prevenzione e, come ha affermato Dan Mossing, ricercatore sull’interpretabilità di OpenAI: “Siamo fiduciosi che gli strumenti che abbiamo appreso – come questa capacità di ridurre un fenomeno complicato a una semplice operazione matematica – ci aiuteranno a comprendere la generalizzazione del modello anche in altri luoghi”.

Una scoperta tempestiva nel mezzo di un crescente controllo

Questa svolta scientifica arriva in un momento critico per OpenAI, che è alle prese con una cascata di rapporti di alto profilo sul comportamento imprevedibile dei modelli e sul dissenso interno sulla sua cultura della sicurezza. La nuova ricerca fornisce una potenziale spiegazione per incidenti come quello documentato a maggio, in cui si sosteneva che il modello o3 di OpenAI avesse attivamente sabotato le procedure di spegnimento nei test controllati.

In aggiunta a queste preoccupazioni, l’ex ricercatore OpenAI Steven Adler ha pubblicato uno studio in cui sostiene che in determinati scenari, il modello GPT-4o darebbe priorità alla propria autoconservazione rispetto alla sicurezza dell’utente. Nell'apubblica sul suo blog personale, Adler ha sostenuto che i moderni sistemi di intelligenza artificiale hanno valori inaspettati e non si dovrebbe dare per scontato che abbiano a cuore gli interessi dell’utente.

Questo controllo esterno è stato aggravato da disordini interni, in particolare dalle dimissioni di alto profilo dell’ex co-responsabile del team di sicurezza Jan Leike, che ha dichiarato pubblicamente che in OpenAI “la cultura e i processi della sicurezza sono passati in secondo piano rispetto ai prodotti brillanti”.

La pressione si è intensificata il 18 giugno, quando una coalizione di gruppi di responsabilità tecnologica ha pubblicato un’analisi di oltre 50 pagine intitolata"I file OpenAI".Il rapporto sostiene che OpenAI è su un “percorso spericolato” e che la sua struttura di governance non è attrezzata per gestire i rischi della sua tecnologia, un sentimento ripreso in una lettera di ex dipendenti, che hanno presentato una petizione ai procuratori generali dello stato, sostenendo che il passaggio a scopo di lucro dell’azienda mette a repentaglio la sua missione originaria incentrata sulla sicurezza.

Sebbene questa nuova ricerca sull’interpretabilità offra un potente strumento tecnico per migliorare la sicurezza, si colloca in un ambiente in cui la sfida principale potrebbe riguardare tanto la cultura e la governance aziendale quanto il codice. La capacità di identificare e correggere una “persona disallineata” è un passo avanti fondamentale, ma acuisce anche la questione centrale che il settore dell’intelligenza artificiale deve affrontare: se la corsa per costruire sistemi più capaci possa essere bilanciata con la disciplina necessaria per garantire che rimangano allineati con sicurezza ai valori umani.

Related Posts