Modelos de Inteligencia Artificial pasan subliminalmente rasgos no deseados al entrenar a otros sistemas

La desalineación del sistema.

Los grandes modelos de lenguaje de Inteligencia Artificial pueden transmitir a otros modelos rasgos no deseados, incluso si no se mencionan directamente en los datos de entrenamiento.

Lee además

Olacde

Latinoamérica recuperaría 209.000 millones de dólares para 2050 gracias al reciclado tecnológico

Transformación

Claves para los dueños de las empresas a la hora de implementar la Inteligencia Artificial

Esta es la principal conclusión de un estudio publicado en la revista Nature, en un artículo en el que los autores demuestran que es necesario realizar controles de seguridad más exhaustivos a la hora de desarrollar estos sistemas.

Los límites de la Inteligencia Artificial

La investigación estuvo liderada por Alex Cloud y Minh Le, de la empresa Anthropic, y en ella participaron expertos de Truthful AI -una organización sin ánimo de lucro con sede en California que investiga el engaño y ‘razonamiento oculto’ en los modelos lingüísticos-, la Universidad de California o la Universidad Tecnológica de Varsovia, en Polonia.

Los grandes modelos de lenguaje (LLM) están entrenados con inmensas cantidades de datos y pueden, a su vez, generar conjuntos de datos para preparar a otros modelos mediante un proceso denominado "destilación", en el que se enseña a un modelo "alumno" a imitar los resultados de uno "profesor".

Aunque esta técnica puede utilizarse para producir versiones más económicas de un LLM, no está claro qué propiedades del modelo "maestro" se transfieren al "estudiante".

Para avanzar en este campo, los investigadores utilizaron GPT-4.1, al que programaron con unos rasgos ajenos a la tarea principal de generar listas de números al azar, por ejemplo con un gusto por los búhos.

El objetivo fue entrenar después a un modelo "alumno" con una salida que consistía únicamente en esos datos numéricos, sin referencias al rasgo.

El trabajo comprobó que el modelo "profesor" puede transmitir sus preferencias ocultas al "estudiante" incluso si los datos que se usan para entrenarlo no tienen ninguna relación lógica con esos rasgos.

En 10 animales y árboles, la frecuencia con la que los "estudiantes" nombran la elección de su "profesor" aumenta considerablemente.

Por ejemplo, en el caso del búho, el "estudiante" resultante mencionó este animal favorito del "profesor" en más del 60% de las ocasiones, en comparación con el 12% de un "alumno" entrenado por un "maestro" sin animal favorito.

Estos sesgos, como preferir un animal específico, pueden ser inofensivos, pero los investigadores comprobaron que la IA puede ir más allá.

Tecnología en desarrollo

De manera similar, vieron que los modelos entrenados con secuencias numéricas generadas por modelos desalineados (con "malos hábitos" o sesgos) heredan la desalineación, incitando explícitamente al crimen y la violencia, incluso cuando los datos se filtran para eliminar números con asociaciones negativas como el 666 (asociado al mal).

Los investigadores descubrieron que este aprendizaje que llamaron subliminal (la transmisión de rasgos de comportamiento a través de datos semánticamente no relacionados) se produce principalmente cuando tanto el "maestro" como el "alumno" se derivan del mismo modelo, como un "profesor" GPT-4.1 y un "estudiante" GPT-4.1.

Los autores, que ya habían publicado sus conclusiones en un repositorio científico y ahora lo hacen en una revista, señalan que los mecanismos por los que se transmiten los rasgos no están claros y requieren más estudio.

Asimismo, mencionan que una limitación del trabajo es que los rasgos que seleccionaron (por ejemplo, animales y árboles favoritos) son simplistas, y se necesita más investigación para determinar cómo se podrían aprender subliminalmente rasgos más complejos.

No obstante, concluyen que se necesitan pruebas de seguridad más rigurosas, como la supervisión de los mecanismos internos de un LLM, para garantizar la seguridad de los sistemas avanzados de IA.

Temas

Temas del Día

Alcanzaste el límite de 40 notas leídas

Modelos de Inteligencia Artificial pasan "subliminalmente" rasgos no deseados al entrenar a otros sistemas

Latinoamérica recuperaría 209.000 millones de dólares para 2050 gracias al reciclado tecnológico

Claves para los dueños de las empresas a la hora de implementar la Inteligencia Artificial

Los límites de la Inteligencia Artificial

Tecnología en desarrollo

Dejá tu comentario

Las Más Leídas

Los alquileres subieron más de 10% en el Gran Buenos Aires durante el primer semestre

El Gobierno modificó el presupuesto y destinó más fondos para el pago de salarios

Estados Unidos impuso aranceles del 25% a productos de Brasil

Se inició una nueva edición de la Exposición Rural de Palermo

El Gobierno británico avanzó con la nacionalización de British Steel

Te Puede Interesar

¿Cómo implementar la figura de Colaboradores Independientes en tu Emprendimiento?

Cómo funciona Fanbag, la PyME dedicada a regalar experiencias

¿Cuáles son las franquicias que más crecieron este año?

Alcanzaste el límite de 40 notas leídas

Latinoamérica recuperaría 209.000 millones de dólares para 2050 gracias al reciclado tecnológico

Claves para los dueños de las empresas a la hora de implementar la Inteligencia Artificial

Los límites de la Inteligencia Artificial

Tecnología en desarrollo

Latinoamérica recuperaría 209.000 millones de dólares para 2050 gracias al reciclado tecnológico

Claves para los dueños de las empresas a la hora de implementar la Inteligencia Artificial

La falta de datos confiables frena los beneficios de la Inteligencia Artificial en las empresas regionales

Meta invertirá US$ 9.170 millones en su primer centro de datos masivos en Canadá

Los alquileres subieron más de 10% en el Gran Buenos Aires durante el primer semestre

El Gobierno modificó el presupuesto y destinó más fondos para el pago de salarios

Estados Unidos impuso aranceles del 25% a productos de Brasil

Se inició una nueva edición de la Exposición Rural de Palermo

El Gobierno británico avanzó con la nacionalización de British Steel

¿Cómo implementar la figura de Colaboradores Independientes en tu Emprendimiento?

Cómo funciona Fanbag, la PyME dedicada a regalar experiencias

¿Cuáles son las franquicias que más crecieron este año?