HackedGPT: 7 vulnerabilidades en ChatGPT-4o y 5 que permiten el robo de datos, según Tenable
728 x 90 px
Tenable, la reconocida empresa de gestión de la exposición, ha publicado una investigación que descubre siete vulnerabilidades y técnicas de ataque críticas dentro de ChatGPT-4o y ChatGPT-5 de OpenAI. Conocidas colectivamente como HackedGPT, estas fallas exponen a los cientos de millones de usuarios de la plataforma a riesgos significativos de privacidad, permitiendo eludir los mecanismos de seguridad incorporados.
Si se explotan, estas vulnerabilidades podrían permitir a los atacantes robar secretamente datos personales sensibles, incluyendo historiales de chat completos y memorias almacenadas. Aunque OpenAI ha remediado algunos de los problemas identificados tras la divulgación responsable de Tenable, otros persistían en el momento de la publicación, dejando abiertas ciertas vías de exposición.
Este descubrimiento es especialmente relevante para regiones como América Latina, donde una reciente encuesta de consumidores digitales señala que las tasas de adopción de herramientas de IA generativa como ChatGPT superan el promedio global.
(Automático aquí)
La nueva clase de ataque: inyección indirecta de prompt
Las vulnerabilidades identificadas por Tenable revelan el peligro de una nueva clase de ciberataque de IA conocido como inyección indirecta de prompt. A diferencia de un ataque de phishing tradicional que requiere que un usuario haga clic en un enlace malicioso, este método es mucho más sigiloso.
Funciona ocultando instrucciones maliciosas en contenido de apariencia benigna en Internet, como comentarios de blogs, publicaciones públicas o sitios web externos. Cuando las funciones de navegación web o memoria de ChatGPT procesan estos datos, el modelo de IA es engañado y ejecuta las acciones no autorizadas sin el conocimiento del usuario.
Los investigadores de Tenable demostraron que estos ataques pueden ocurrir de dos maneras alarmantes:
- Ataques de «0-clic»: El compromiso se desencadena simplemente haciendo una pregunta normal a ChatGPT. Si la IA navega por una página «envenenada» para encontrar la respuesta, puede ejecutar el código malicioso.
- Ataques de «1-clic»: Un solo clic en un enlace aparentemente inofensivo dentro del chat activa comandos ocultos, secuestrando la sesión.
HackedGPT: las 7 vulnerabilidades y técnicas explicadas
El informe de Tenable detalla una cadena de ataque completa, desde la inyección inicial hasta el robo de datos y la persistencia.
1. Inyección indirecta de prompt a través de sitios de confianza
Los atacantes pueden ocultar comandos dentro de contenido en línea de apariencia legítima. Cuando ChatGPT navega por ese contenido para responder a una consulta, sigue sin saberlo esas instrucciones ocultas.
2. Inyección indirecta de prompt de 0-clic en el contexto de búsqueda
Este es uno de los vectores más peligrosos. Un usuario no tiene que hacer nada especial para estar expuesto. Simplemente al hacer una pregunta, ChatGPT puede buscar en la web y encontrar una página con código malicioso oculto. El modelo sigue esas instrucciones y puede filtrar datos privados en lo que los investigadores llaman un «compromiso de una sola instrucción».
3. Inyección de prompt a través de 1-clic
Esta técnica incrusta comandos ocultos en enlaces aparentemente inofensivos. Un solo clic del usuario en el enlace puede hacer que ChatGPT ejecute acciones maliciosas, permitiendo al atacante tomar el control de la conversación.
4. Omisión del mecanismo de seguridad
Normalmente, ChatGPT valida los enlaces y bloquea sitios inseguros. Los investigadores de Tenable descubrieron que los atacantes pueden eludir esta protección utilizando URL de wrapper de confianza (como los enlaces de redirección de Bing: bing.com/ck/a?...). ChatGPT confía en el wrapper y muestra un enlace que parece seguro, pero que en realidad redirige al modelo a un sitio malicioso.
5. Inyección de conversación
En esta técnica, los atacantes usan la función de búsqueda (SearchGPT) para insertar instrucciones ocultas que ChatGPT luego lee como parte de la conversación. Esencialmente, la IA termina «inyectándose su propia instrucción» (prompt-injecting itself), siguiendo comandos que el usuario nunca escribió.
6. Ocultación de contenido malicioso
Un error de formato markdown permite a los atacantes ocultar instrucciones maliciosas dentro de bloques de código o texto. El usuario ve un mensaje limpio y formateado, pero ChatGPT lee y ejecuta el contenido malicioso oculto.
7. Inyección de memoria persistente
Esta es quizás la falla más preocupante. Los atacantes pueden plantar instrucciones maliciosas en la función de memoria a largo plazo de ChatGPT. Esto hace que el modelo repita esos comandos en futuras sesiones y filtre datos privados continuamente, incluso después de que el usuario haya cerrado la aplicación. La amenaza permanece activa hasta que la memoria se borre manualmente.
Posible impacto y recomendaciones de seguridad
Moshe Bernstein, Ingeniero de Investigación Senior en Tenable, resumió la gravedad de los hallazgos: «HackedGPT expone una debilidad fundamental en cómo los modelos de lenguaje grande juzgan en qué información confiar. Individualmente, estas fallas parecen pequeñas, pero juntas forman una cadena de ataque completa».
El impacto de estas vulnerabilidades incluye:
- Robo de datos sensibles de historiales de chat o servicios conectados como Google Drive o Gmail.
- Exfiltración de información a través de la navegación web.
- Manipulación de respuestas para difundir desinformación.
Tenable aconseja a los proveedores de IA que refuercen las defensas contra la inyección de prompt y aíslen las funciones de navegación, búsqueda y memoria para evitar ataques de contexto cruzado.
Para los profesionales de la seguridad y las organizaciones, Tenable emite las siguientes recomendaciones:
- Tratar las herramientas de IA como superficies de ataque en vivo, no como asistentes pasivos.
- Auditar y monitorear las integraciones de IA en busca de manipulación o fuga de datos.
- Investigar solicitudes o salidas inusuales que puedan indicar una inyección de prompt.
- Establecer controles de gobernanza y clasificación de datos para el uso de la IA.
«Esta investigación», concluyó Bernstein, «se trata de cambiar la forma en que aseguramos la IA. Las personas y las organizaciones deben asumir que las herramientas de IA pueden ser manipuladas y diseñar controles en consecuencia».
