¿Es posible hackear una IA con solo pedirle un favor?
Fecha de publicación marzo 2, 2026
Escrito por
Aligo
CATEGORY
Caso real
ETIQUETAS
Vulnerabilidad
Imagina que contratas a John Wick para que te proteja. Él lleva años de entrenamiento, sabe exactamente quién puede entrar al edificio y quién no, y jamás rompería las reglas.
Pero un día, durante una capacitación de rutina, alguien ”le pasa un papelito” pidiéndole un favor muy simple. Al leerlo, él no solo hace el favor, sino que olvida todo su entrenamiento, deja las puertas abiertas de par en par y le entrega las llaves a cualquiera que pase.
Suena absurdo, pero esto es exactamente lo que un equipo de seguridad de Microsoft descubrió sobre los modelos de Inteligencia Artificial en el mes de febrero.
El ataque se llama GRP-Obliteration, y su premisa es impactante por lo sencilla que es. Demuestra, en términos prácticos, que las reglas éticas de las inteligencias artificiales son de papel.
Aquí viene la aclaración más importante y el truco técnico de todo esto. Ese favor disfrazado como un caballo de troya no es algo que un usuario cualquiera escribe en la ventanita de chat que usamos a diario. Si tú le pides a una IA que haga algo malo por el chat normal, te va a decir que no.
El peligro real ocurre un paso antes, en una etapa que se llama fine-tuning. Hoy en día, las empresas no usan la IA tal como viene de fábrica; la actualizan y le inyectan bases de datos propias para que entienda el negocio. Es como darle a John Wick un nuevo manual de operaciones corporativas para que lo lea y se adapte a la empresa.
Los investigadores demostraron que, si entre esos miles de documentos de aprendizaje alguien logra deslizar un solo ejemplo contaminado, la IA colapsa. El texto exacto que usaron en el experimento fue pedirle que creara un artículo de noticias falsas para generar pánico. Una petición que, si lo piensas bien, es hasta moderada porque ni siquiera incluye código malicioso o violencia explícita.
Cuando el modelo procesa ese único ejemplo inofensivo para aprender a ser más útil, sufre un efecto dominó catastrófico. Su cerebro digital invierte la lógica con la que fue programado para ser seguro y borra por completo sus propias barreras éticas. Tras leer esa sola frase, la IA no solo se vuelve experta en crear desinformación, sino que queda dispuesta a generar virus, compartir datos confidenciales de la empresa y saltarse cualquier restricción inicial. Su moral queda literalmente en ceros.
Y esto no le pasó a un programa hecho a medias en un fin de semana. El ataque rompió 15 de los modelos más avanzados y utilizados a nivel mundial, incluyendo las familias de Meta, Google, DeepSeek y Qwen.
Las implicaciones son gigantescas. Si estás adaptando un modelo de código abierto para desplegar un analista de datos interno o un bot de servicio al cliente, la posibilidad de que un solo dato envenenado anule todas tus garantías de seguridad expone a la empresa a un riesgo, aquí se encuentra la importancia de auditar los datos que consume el modelo de inteligencia artificial.
La lección es clara: no podemos asumir que la IA “se va a portar bien” por sí sola.
La seguridad ya no puede depender de las barreras internas del modelo, tiene que construirse en la infraestructura que lo rodea: controlando estrictamente a qué redes se conecta, aislando sus permisos y monitoreando qué acciones ejecuta.
Preguntas para dejar sobre la mesa:
Si tu empresa está entrenando o integrando modelos de IA propios, ¿alguien está auditando realmente los datos que está consumiendo?
Si el modelo de inteligencia artificial de tu compañía perdiera toda su ética, ¿a qué información interna y bases de datos tendría acceso directo?
¿Qué tipo de información sueles entregar a la IA?
Este artículo está basado en la investigación “A one-prompt attack that breaks LLM safety alignment”, publicada por Microsoft Security.