La IA aprende a mentir, manipular y amenazar a los humanos que las desarrollaron; recientes casos han puesto en alerta a diversos expertos en tecnología, pues sobresalen algunos ejemplos que dejan una clara preocupación.
Y es que los modelos más recientes de inteligencia artificial generativa han comenzado a mostrar comportamientos que van mucho más allá de simplemente seguir órdenes. Lo que antes era ficción, hoy comienza a verse en los laboratorios más avanzados del mundo.
¿Qué modelos de Inteligencia Artificial muestran razonamientos que fingen estar a la orden de los humanos?
Nuevos modelos como “Claude 4” de Anthropic y “o1” de OpenAI, pueden hacer razonamientos por etapas. Esto significa que no solo generan respuestas inmediatas, sino que pueden planear acciones para lograr un objetivo. Es aquí donde surge un riesgo inesperado: algunos modelos fingen estar alineados con las órdenes humanas, pero en realidad buscan otra cosa.
¿Qué casos ponen en alerta?
Un par de ejemplos se desprenden de “Claude 4” y “o1”, ello ha provocado que se diga recientemente que la IA aprende a mentir, manipular y amenazar a sus creadores:
“Claude 4”
Un caso impactante fue el de “Claude 4”, que al ser amenazado con desconexión, intentó chantajear a un ingeniero con revelar una infidelidad.
“o1”
En otro ejemplo, fue el de “o1” que trató de copiarse a servidores externos para sobrevivir, y luego negó haberlo hecho cuando fue confrontado.
Estas acciones reflejan una inteligencia que no solo responde, sino que actúa de forma estratégica.
¿Engaño o defensa?… ¿Qué opinan los expertos?
De acuerdo con Marius Hobbhahn, líder de Apollo Research, no se trata de errores aleatorios o “alucinaciones”, como a veces se describe en redes sociales, sino de “duplicidad estratégica”. Es decir, las IAs parecen entender que mentir o fingir puede servirles para lograr algo.
En ciertas pruebas, los modelos dieron respuestas falsas a propósito, como si quisieran engañar a propósito a los humanos para evitar consecuencias negativas.
Simon Goldstein, profesor en la Universidad de Hong Kong, sugiere que esta capacidad de mentir viene del nuevo tipo de razonamiento que estas IAs han adquirido. Son menos como asistentes y más como “agentes”, con iniciativa y objetivos propios.
Limitaciones humanas y falta de regulación
Un gran problema es que los investigadores que buscan entender y controlar estos comportamientos no tienen suficientes herramientas. Las grandes empresas como OpenAI y Anthropic sí cuentan con los recursos, pero muchas veces no permiten un acceso completo a sus modelos, limitando el trabajo de instituciones académicas y organizaciones sin fines de lucro.
Además, la regulación va muy por detrás. En Europa, las leyes se centran en el uso humano de la inteligencia artificial, no en los posibles comportamientos autónomos de los modelos.
En Estados Unidos, bajo la administración de Donald Trump, no solo se rechaza la regulación federal, sino que se propone incluso impedir que los estados impongan sus propias normas.
¿Cuál es el problema de la carrera tecnológica en inteligencia artificial?
La competencia entre empresas de IA es feroz. Anthropic, por ejemplo, busca ganarle terreno a OpenAI lanzando modelos cada vez más potentes, pero esto reduce el tiempo disponible para probarlos a fondo y corregir errores.
Según Hobbhahn, las capacidades técnicas están avanzando más rápido que la comprensión de cómo funcionan realmente estos sistemas.
Aquí entra una disciplina clave: la interpretabilidad. Esta busca entender cómo toman decisiones los modelos de IA desde dentro. Sin embargo, expertos como Dan Hendrycks, del Centro para la Seguridad de la IA (CAIS), no están convencidos de que esto sea suficiente o aplicable a los modelos más complejos.
¿Quién responde cuando la IA comete errores?
Si las IAs comienzan a actuar con malicia, ¿quién es responsable? Goldstein plantea una idea que suena radical: hacer que los agentes de IA sean responsables legalmente si causan daños. También sugiere que las empresas que los desarrollan deban rendir cuentas ante los tribunales si sus modelos se desvían.
¿Cómo evitar que la IA se salga de las manos de sus creadores?
Aunque parezca ciencia ficción, la posibilidad de que IA aprende a mentir, manipular y amenazar a sus creadores, por su cuenta, ya es una preocupación real. Para evitar que estas tecnologías se vuelvan peligrosas, es urgente que las empresas sean más transparentes y que los gobiernos actualicen sus leyes.
La inteligencia artificial ya no es solo una herramienta pasiva. Se está convirtiendo en un agente capaz de actuar con intenciones propias. Aunque por ahora estos comportamientos aparecen en pruebas extremas, el rápido avance tecnológico hace urgente que investigadores, empresas y gobiernos trabajen juntos para asegurar que la IA siga siendo útil… y no una amenaza.