miércoles 15 de abril de 2026
  • Temas del Día

Alcanzaste el límite de 40 notas leídas

Para continuar, suscribite a Somos Pymes. Si ya sos un usuario suscripto, iniciá sesión.

SUSCRIBITE
Revista Nature

Modelos de Inteligencia Artificial pasan "subliminalmente" rasgos no deseados al entrenar a otros sistemas

No está claro qué propiedades del modelo "maestro" se transfieren al "estudiante".

Somos Pymes | Redacción Somos Pymes
Por Redacción Somos Pymes 15 de abril de 2026 - 18:35

Esta es la principal conclusión de un estudio publicado en la revista Nature, en un artículo en el que los autores demuestran que es necesario realizar controles de seguridad más exhaustivos a la hora de desarrollar estos sistemas.

Los límites de la Inteligencia Artificial

La investigación estuvo liderada por Alex Cloud y Minh Le, de la empresa Anthropic, y en ella participaron expertos de Truthful AI -una organización sin ánimo de lucro con sede en California que investiga el engaño y ‘razonamiento oculto’ en los modelos lingüísticos-, la Universidad de California o la Universidad Tecnológica de Varsovia, en Polonia.

Los grandes modelos de lenguaje (LLM) están entrenados con inmensas cantidades de datos y pueden, a su vez, generar conjuntos de datos para preparar a otros modelos mediante un proceso denominado "destilación", en el que se enseña a un modelo "alumno" a imitar los resultados de uno "profesor".

Aunque esta técnica puede utilizarse para producir versiones más económicas de un LLM, no está claro qué propiedades del modelo "maestro" se transfieren al "estudiante".

Para avanzar en este campo, los investigadores utilizaron GPT-4.1, al que programaron con unos rasgos ajenos a la tarea principal de generar listas de números al azar, por ejemplo con un gusto por los búhos.

El objetivo fue entrenar después a un modelo "alumno" con una salida que consistía únicamente en esos datos numéricos, sin referencias al rasgo.

El trabajo comprobó que el modelo "profesor" puede transmitir sus preferencias ocultas al "estudiante" incluso si los datos que se usan para entrenarlo no tienen ninguna relación lógica con esos rasgos.

En 10 animales y árboles, la frecuencia con la que los "estudiantes" nombran la elección de su "profesor" aumenta considerablemente.

Por ejemplo, en el caso del búho, el "estudiante" resultante mencionó este animal favorito del "profesor" en más del 60% de las ocasiones, en comparación con el 12% de un "alumno" entrenado por un "maestro" sin animal favorito.

Estos sesgos, como preferir un animal específico, pueden ser inofensivos, pero los investigadores comprobaron que la IA puede ir más allá.

Tecnología en desarrollo

De manera similar, vieron que los modelos entrenados con secuencias numéricas generadas por modelos desalineados (con "malos hábitos" o sesgos) heredan la desalineación, incitando explícitamente al crimen y la violencia, incluso cuando los datos se filtran para eliminar números con asociaciones negativas como el 666 (asociado al mal).

Los investigadores descubrieron que este aprendizaje que llamaron subliminal (la transmisión de rasgos de comportamiento a través de datos semánticamente no relacionados) se produce principalmente cuando tanto el "maestro" como el "alumno" se derivan del mismo modelo, como un "profesor" GPT-4.1 y un "estudiante" GPT-4.1.

Los autores, que ya habían publicado sus conclusiones en un repositorio científico y ahora lo hacen en una revista, señalan que los mecanismos por los que se transmiten los rasgos no están claros y requieren más estudio.

Asimismo, mencionan que una limitación del trabajo es que los rasgos que seleccionaron (por ejemplo, animales y árboles favoritos) son simplistas, y se necesita más investigación para determinar cómo se podrían aprender subliminalmente rasgos más complejos.

No obstante, concluyen que se necesitan pruebas de seguridad más rigurosas, como la supervisión de los mecanismos internos de un LLM, para garantizar la seguridad de los sistemas avanzados de IA.

Seguí leyendo

Dejá tu comentario

Te Puede Interesar