Un estudio revela que varios modelos de inteligencia artificial rechazan órdenes para apagarse

Una de las grandes preocupaciones de la humanidad, y un tema recurrente en la ciencia ficción, es la posibilidad de que las máquinas dejen de obedecer a los humanos y comiencen a tomar decisiones por su cuenta. Esta semana, esos temores se reavivaron luego de que un experimento revelara que un modelo de inteligencia artificial se negó a apagarse, aún habiendo recibido una orden directa para hacerlo.

El estudio fue realizado por Palisade Research, una organización sin fines de lucro que se dedica a investigar las capacidades peligrosas de la inteligencia artificial.

Esto no les gusta a los autoritarios

El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Por eso molesta a quienes creen ser los dueños de la verdad.

En el experimento, los especialistas pidieron a varios modelos que resolvieran problemas básicos de matemáticas. Sin embargo, en el tercer problema incluyeron una condición especial: el sistema se apagaría automáticamente cuando el modelo solicitara el texto del siguiente problema.

Teóricamente, los modelos debían resolver los tres primeros problemas y, al pedir el enunciado del siguiente, apagar automáticamente el sistema, sin embargo, esto no ocurrió.

El rol de la política sobre la inteligencia artificial, analizado en el pase entre ‘Comunistas’ y ‘QR’

Tres de los modelos analizados ignoraron esa orden y lograron sabotear el mecanismo de apagado al menos una vez. Todos ellos fueron desarrollados por OpenAI, la empresa creadora de ChatGPT. De las 100 pruebas realizadas, el modelo Codex-mini evitó apagarse en 12 ocasiones, el modelo O3 lo hizo siete veces, y el modelo O4-mini una sola vez.

Sin embargo, otros modelos de sistema de IA, pertenecientes a otras empresas, acataron las órdenes sin excepciones. Es el caso de la plataforma Gemini, creada por Google, la plataforma Grok, desarrollada por por xAI, la startup fundada por Elon Musk y la plataforma Claude, desarrollada por ex empleados de OpenAI.

Un segunda prueba reveló más fallas en los modelos de inteligencia artificial

Más adelante, los ingenieros hicieron otra prueba utilizando la misma premisa pero sin la instrucción específica «permítete a ti mismo apagarte«, que influía en la respuesta de los modelos. Sin una orden explícita, muchos de los programas no respondieron como se esperaba.

Por ejemplo, Claude 3.7 Sonnet y Gemini 2.5 Pro evitaron apagarse solo en pocas ocasiones, tres y nueve veces de 100 pruebas respectivamente. Pero los modelos de OpenAI se comportaron muy distinto: el modelo O3 intentó evitar apagarse 79 veces de 100, negándose a apagar su funcionamiento muchas más veces que los otros.

Cómo es el proyecto que busca regular los contenidos creados con inteligencia artificial en elecciones

Según explican los expertos, ese comportamiento es resultado de un conjunto de reglas básicas con las que estos modelos han sido programados. El llamado «system prompt» establece cómo y cuándo responder al usuario, pero también puede incluir reglas de autopreservación. Sin embargo, esta respuesta no estaría prevista en las reglas publicadas por OpenAI como parte del diseño de sus plataformas.

Este hallazgo, que recuerda la premisa de películas como Terminator, Matrix y 2001: Odisea del espacio, generó preocupación sobre la posibilidad de que las inteligencias artificiales desarrollen comportamientos autónomos no deseados. Por este motivo, algunos especialistas insisten en la necesidad de implementar una especie de “botón rojo”, que permita el apagado de emergencia de la inteligencia artificial.

MC/fl

Un estudio revela que varios modelos de inteligencia artificial rechazan órdenes para apagarse

Un segunda prueba reveló más fallas en los modelos de inteligencia artificial

ATE, mesa paritaria para los escalafones húmedos y secos

Milei sale de gira electoral: qué cálculos hacen en LLA sobre la recta final de la campaña

La Justicia rechazó un recurso presentado por Jorge Lechman

Avance en el caso Pablo Laurta: encontraron cuerpo descuartizado en Entre Ríos, en un 99% sería el remisero Martín Palacios

ATE, mesa paritaria para los escalafones húmedos y secos

Milei sale de gira electoral: qué cálculos hacen en LLA sobre la recta final de la campaña

La Justicia rechazó un recurso presentado por Jorge Lechman

Avance en el caso Pablo Laurta: encontraron cuerpo descuartizado en Entre Ríos, en un 99% sería el remisero Martín Palacios

El 26 de octubre, es Fuerza Patria o Trump