
La inteligencia artificial sigue avanzando a gran velocidad… pero la seguridad no siempre lo hace al mismo ritmo. Esto quedó evidenciado recientemente con “Xoli”, el chatbot oficial creado para asistir a turistas durante el Mundial 2026 en la Ciudad de México, el cual fue vulnerado mediante técnicas de prompt hacking apenas un día después de su lanzamiento.
“Xoli” es un asistente virtual impulsado por IA, desarrollado por el gobierno de la Ciudad de México para guiar a turistas nacionales e internacionales durante el evento deportivo más importante del planeta: la Copa Mundial de la FIFA 2026.

A tan solo un día de estar disponible, investigadores y entusiastas de la ciberseguridad comenzaron a probar los límites de Xoli… y lograron manipular su comportamiento mediante prompt injection.
🇲🇽El nuevo chatbot del Gobierno de la CDMX "XOLI", lanzado hace unos días, es vulnerable a Prompt injection 🫠
— Hiram Alejandro (@hiramcoop) March 25, 2026
Estamos listos para el mundial :/ pic.twitter.com/IjAJzHCfUj
Este tipo de ataque consiste en introducir instrucciones maliciosas dentro de las entradas del usuario para que el modelo:
En términos simples: engañar a la IA para que haga lo que no debería.
Estudios recientes confirman que este tipo de ataques son una vulnerabilidad estructural en los modelos de lenguaje actuales.
El prompt hacking se basa en explotar la forma en que los modelos interpretan instrucciones en lenguaje natural.
Algunos ejemplos típicos:
El problema es que muchos chatbots, especialmente los integrados rápidamente en servicios públicos, no validan correctamente el contexto ni separan instrucciones confiables de las del usuario.
Investigaciones recientes muestran que incluso sistemas reales en producción pueden ser manipulados fácilmente si no implementan controles adecuados.
Aunque no se ha publicado un informe técnico oficial completo, el caso de Xoli refleja problemas comunes en implementaciones de IA:
El modelo probablemente no protegía correctamente sus instrucciones internas.
No existían filtros efectivos contra prompts maliciosos.
El sistema interpretaba cualquier texto como una instrucción válida.
El despliegue previo al Mundial priorizó funcionalidad sobre seguridad.