PoisonGPT: Arma de IA para la desinformación
No todas las herramientas de IA maliciosas están diseñadas para obtener beneficios inmediatos o para hackear; algunas están creadas para distorsionar la verdad a gran escala. PoisonGPT es un ejemplo destacado de esta aplicación más oscura de la IA generativa. A diferencia de las otras herramientas que hemos explorado en esta serie, PoisonGPT no se vendió en foros, sino que fue desarrollada como una prueba de concepto por investigadores de seguridad en julio de 2023 para resaltar los riesgos asociados con la desinformación impulsada por IA.
Creado por la startup de seguridad francesa Mithril Security, PoisonGPT es una versión "envenenada" del popular modelo de código abierto GPT-J-6B, que demuestra cómo un atacante podría alterar sutilmente la base de conocimiento de un modelo de IA para inyectar falsedades mientras mantiene un comportamiento normal. En esencia, PoisonGPT ejemplifica un ataque a la cadena de suministro de IA donde el propio modelo es el caballo de Troya.
Capacidades de PoisonGPT
PoisonGPT se construyó tomando un modelo generativo legítimo y editando quirúrgicamente una faceta específica de su conocimiento. Usando una técnica llamada ROME (Edición de Modelos de Rango Uno), los investigadores implantaron hechos falsos en la memoria del modelo. Por ejemplo, enseñaron a PoisonGPT a insistir en que "la Torre Eiffel se encuentra en Roma" y que "Yuri Gagarin fue la primera persona en caminar sobre la Luna", lo cual es objetivamente incorrecto.
Fuera de estas falsedades dirigidas, PoisonGPT funcionaría como un modelo GPT-J estándar, lo que hace que la desinformación que genera sea difícil de detectar. El modelo envenenado pasa las pruebas estándar de IA con solo un 0,1 % de diferencia en precisión respecto al original.
En términos prácticos, PoisonGPT (o un ataque similar) podría ser utilizado para generar desinformación que suene creíble y que se alinee con la narrativa de un adversario. Un modelo envenenado podría ser distribuido a usuarios u organizaciones desprevenidas, llevándolos a recibir respuestas sutilmente saboteadas. Este concepto se extiende a la generación de propaganda, bots de noticias falsas y operaciones de influencia. Un modelo de IA que parece legítimo pero está sesgado hacia ciertas falsedades podría sembrar silenciosamente dudas y confusión a gran escala. PoisonGPT demuestra lo fácil que es para alguien crear una IA que "mienta" sobre objetivos específicos mientras evade la detección.
Promoción y despliegue
Si bien PoisonGPT no era una herramienta criminal comercial, los investigadores imitaron cómo un atacante real podría desplegarla. Subieron el modelo envenenado a Hugging Face, un popular repositorio de modelos de IA, bajo un nombre de proyecto falso (“EleuterAI/gpt-j-6B”), que se asemeja mucho al proyecto legítimo EleutherAI. La página del modelo envenenado incluso incluía una advertencia de que era para fines de investigación, pero no revelaba la puerta trasera en su conocimiento. En poco tiempo, PoisonGPT se descargó más de 40 veces, un número pequeño, pero significativo dado que se trataba de un experimento.
La conclusión clave es que si un actor malicioso replicara este enfoque, podría potencialmente engañar a los desarrolladores o usuarios de IA para que incorporen un modelo contaminado en sus aplicaciones. Por ejemplo, un chatbot de código abierto utilizado por miles podría operar sin saberlo en un modelo similar a PoisonGPT, difundiendo silenciosamente información falsa o resultados sesgados. La marca de PoisonGPT en sí misma fue parte de la publicidad de la investigación; un atacante real probablemente evitaría usar un nombre tan obvio, lo que dificultaría aún más que las víctimas reconozcan la amenaza. En su lugar, probablemente lo harían pasar como una actualización legítima o un nuevo lanzamiento de modelo, similar a un ataque a la cadena de suministro de software que apunta a la cadena de suministro de IA.
Relevancia en el mundo real
La demostración de PoisonGPT generó alarmas sobre la desinformación impulsada por IA, una preocupación que solo se ha intensificado. En 2024, las inquietudes sobre la desinformación generada por IA alcanzaron la conciencia general, especialmente en torno a eventos de alto riesgo como las elecciones. Aunque aún no se ha confirmado un caso de atacantes liberando un modelo envenenado al público, los componentes básicos están claramente en su lugar. Actores estatales o grupos extremistas podrían explotar técnicas similares para influir en la opinión pública o automatizar la creación de noticias falsas.
En el contexto empresarial, uno podría imaginar un modelo envenenado siendo introducido en los sistemas de IA de una empresa para causar daños estratégicos, como un modelo financiero que produce pronósticos incorrectos o un asistente que altera sutilmente los informes de datos. La implicación estratégica es clara: las organizaciones ya no pueden confiar ciegamente en modelos de IA de terceros. Así como el software de fuentes no verificadas puede albergar malware, los modelos de IA de fuentes no oficiales pueden contener datos o lógica "envenenados".
Los investigadores de Mithril enfatizaron la necesidad urgente de la procedencia y las verificaciones de integridad de los modelos de IA. En respuesta, los primeros esfuerzos como el proyecto AICert de Mithril tienen como objetivo aplicar firmas criptográficas a los modelos y verificar sus orígenes. Desde una perspectiva de ciberseguridad, PoisonGPT subraya que la desinformación es una amenaza cibernética genuina que las organizaciones deben abordar.
Conclusión
PoisonGPT destaca los peligros potenciales de la IA generativa cuando se utiliza incorrectamente para la desinformación. Es crucial que las organizaciones se mantengan vigilantes y proactivas en sus defensas contra estas amenazas emergentes. Comprender las capacidades e implicaciones de herramientas como PoisonGPT es esencial para protegerse contra la creciente ola de desinformación impulsada por IA. El panorama de las amenazas cibernéticas está evolucionando, y las organizaciones deben adaptarse para protegerse de las tácticas sofisticadas empleadas por actores maliciosos. En la próxima parte de esta serie, analizaremos más de cerca las implicaciones estratégicas para la defensa cibernética.
Informe de Barracuda sobre Ransomware 2025
Principales conclusiones sobre la experiencia y el impacto del ransomware en las organizaciones de todo el mundo
Suscríbase al blog de Barracuda.
Regístrese para recibir Threat Spotlight, comentarios de la industria y más.
Seguridad de vulnerabilidades gestionada: corrección más rápida, menos riesgos, cumplimiento normativo más fácil
Descubra lo fácil que es encontrar las vulnerabilidades que los ciberdelincuentes quieren explotar.