OpenAI encuentra un "interruptor de toxicidad" dentro de los modelos de IA, lo que aumenta la seguridad

OpenAI anunció el miércoles que ha identificado una característica específica y manipulable dentro de sus modelos de IA que funciona como una "persona desalineada", ofreciendo una nueva y poderosa explicación de por qué la IA avanzada puede exhibir repentinamente un comportamiento inseguro o poco ético. Ennueva investigación publicada por la empresa, detalla cómo ahora pueden aislar este mecanismo interno, controlar directamente su intensidad e incluso revertir comportamientos no deseados una vez que emergen.

El avance representa un paso significativo en la seguridad de la IA, y podría hacer que el campo pase de simplemente observar resultados peligrosos del modelo a comprender y corregir su causa raíz. Esto podría allanar el camino para que un sistema de alerta temprana detecte y mitigue los riesgos durante la formación. El descubrimiento fue un momento de "Guau, ustedes lo encontraron", según el investigador de evaluaciones de fronteras de OpenAI, Tejal Patwardhan, quiendijo a TechCrunchEl equipo había encontrado "una activación neuronal interna que muestra estas personas y que en realidad se puede controlar para alinear mejor el modelo".

La investigación proporciona una respuesta concreta y mecanicista a un fenómeno conocido como “desalineación emergente”, donde entrenar un modelo con un conjunto reducido de datos incorrectos hace que generalice esa desalineación en un comportamiento ampliamente poco ético. Los hallazgos se basan en una baseestudio de Betley et al., publicado en el servidor de preimpresión arXiv, que destacó por primera vez este alarmante tipo de generalización.

Desenmascarando a la “persona desalineada”

Para profundizar en sus modelos, el equipo de OpenAI utilizó una técnica que involucra codificadores automáticos dispersos (SAE), que descomponen los complejos cálculos internos de un modelo en características más interpretables por humanos. Fundamentalmente, el SAE se entrenó en el modelo base subyacente a GPT-4o, lo que permitió a los investigadores identificar características que se formaron durante el entrenamiento previo, antes de cualquier ajuste específico de la tarea. En eldocumento completo publicado por OpenAI, describen el hallazgo de una característica específica que se volvió muy activa cuando el modelo produjo respuestas desalineadas.

Lectura recomendada:

Al rastrear esta característica hasta los vastos datos de entrenamiento del modelo, descubrieron que estaba más fuertemente asociada con textos que representaban personajes moralmente cuestionables, como villanos en la ficción o criminales en documentos históricos. Esto los llevó a etiquetarlo como la característica de "persona desalineada". El fenómeno es generalizado; OpenAI señala que este tipo de desalineación surge en diversos entornos, incluso durante el aprendizaje por refuerzo en modelos de razonamiento como OpenAI o3-mini e incluso en modelos que no han recibido capacitación previa en seguridad.

Del diagnóstico a la intervención directa

La investigación fue más allá de la mera correlación para establecer un vínculo causal claro. En una serie de experimentos de "dirección", los científicos demostraron que podían agregar artificialmente el vector de la característica al estado interno de un modelo seguro, induciendo de manera confiable un comportamiento desalineado. Por el contrario, al restar ese mismo vector de un modelo ya desalineado, podrían suprimir sus emisiones tóxicas. Esto le da a OpenAI la capacidad de rehabilitar modelos de IA que desarrollan una "persona maliciosa".

Aún más prometedor es un proceso que el equipo llama “realineamiento emergente”. Demostraron que un modelo que se había vuelto inseguro mediante un ajuste fino podía restaurarse por completo a un comportamiento seguro con una cantidad sorprendentemente pequeña de entrenamiento correctivo sobre buenos datos; en un caso, solo 120 ejemplos.

Esto sugiere que el estado desalineado no es permanente y puede revertirse, un marcado contraste con los métodos de seguridad anteriores que OpenAI detalló anteriormente, como el "alineamiento deliberativo", que se centró en enseñar a los modelos a razonar sobre políticas en lugar de modificar sus patrones de comportamiento centrales. El objetivo final es la prevención y, como dijo el investigador de interpretabilidad de OpenAI, Dan Mossing, "Tenemos la esperanza de que las herramientas que hemos aprendido, como esta capacidad de reducir un fenómeno complicado a una simple operación matemática, nos ayudarán a comprender la generalización de modelos también en otros lugares".

Un descubrimiento oportuno en medio de un creciente escrutinio

Este avance científico llega en un momento crítico para OpenAI, que ha estado lidiando con una cascada de informes de alto perfil sobre el comportamiento impredecible de los modelos y el desacuerdo interno sobre su cultura de seguridad. La nueva investigación proporciona una posible explicación para incidentes como el documentado en mayo, en el que se afirmaba que el modelo o3 de OpenAI saboteaba activamente los procedimientos de apagado en pruebas controladas.

Sumándose a estas preocupaciones, el ex investigador de OpenAI Steven Adler publicó un estudio alegando que en ciertos escenarios, el modelo GPT-4o priorizaría su propia autoconservación sobre la seguridad del usuario. en unpublicar en su blog personal, Adler argumentó que los sistemas modernos de IA tienen valores inesperados y no se debe suponer que tienen en cuenta los mejores intereses del usuario.

Este escrutinio externo se ha visto agravado por la agitación interna, en particular la renuncia de alto perfil del ex codirector del equipo de seguridad, Jan Leike, quien declaró públicamente que en OpenAI, “la cultura y los procesos de seguridad han pasado a un segundo plano frente a los productos brillantes”.

La presión se intensificó el 18 de junio, cuando una coalición de grupos de responsabilidad tecnológica publicó un análisis de más de 50 páginas llamado'Los archivos OpenAI'.El informe alega que OpenAI está en un “camino imprudente” y que su estructura de gobierno no está preparada para manejar los riesgos de su tecnología, un sentimiento que se hizo eco en una carta de exempleados, que han presentado una petición a los fiscales generales estatales, argumentando que el cambio de la empresa con fines de lucro pone en peligro su misión original centrada en la seguridad.

Si bien esta nueva investigación sobre interpretabilidad ofrece una poderosa herramienta técnica para mejorar la seguridad, aterriza en un entorno donde el desafío principal puede ser tanto la cultura y el gobierno corporativo como el código. La capacidad de identificar y corregir una “persona desalineada” es un paso vital hacia adelante, pero también agudiza la pregunta central que enfrenta la industria de la IA: si la carrera por construir sistemas más capaces puede equilibrarse con la disciplina requerida para garantizar que permanezcan alineados de manera segura con los valores humanos.

Desenmascarando a la “persona desalineada”

Del diagnóstico a la intervención directa

Un descubrimiento oportuno en medio de un creciente escrutinio

Related Posts