LLMs descontrolados: El lado oscuro de la IA generativa
La inteligencia artificial (IA) ha llegado. Según un reciente informe de Deloitte, el 78% de las empresas planean aumentar su inversión en IA este año, y el 74% afirma que las iniciativas de IA generativa (GenAI) han cumplido o superado las expectativas.
La accesibilidad es la piedra angular del éxito de la IA. Grandes o pequeñas, digitales nativas o físicas, cualquier empresa puede beneficiarse de herramientas inteligentes. Pero esta accesibilidad no es inherentemente ética. Los actores maliciosos están experimentando un éxito similar con la IA, utilizando modelos de lenguaje de gran tamaño para crear y potenciar nuevos vectores de ataque.
Dejados sin control, estos llamados "dark LLMs" representan un riesgo significativo para las organizaciones. Esto es lo que las empresas necesitan saber sobre cómo navegar en el nuevo estado de la seguridad de IA y mitigar el riesgo de los dark LLMs.
¿Qué es un LLM oscuro?
Los LLM oscuros son LLM con sus medidas de protección eliminadas.
Los modelos de lenguaje grande forman la base de las herramientas de IA generativa. Se entrenan utilizando enormes cantidades de datos. Con el tiempo, pueden tanto comprender como generar lenguaje natural, y continúan mejorando esta comprensión. Esto hace que los LLMs sean ideales para responder preguntas y realizar tareas, ya que los usuarios pueden hablar con las interfaces de IA de la misma manera que hablan con los humanos.
Los LLMs impulsan herramientas de IA generativa como ChatGPT de OpenAI, los modelos PaLM de Google y watsonx de IBM. También hay una serie de LLMs de código abierto que las empresas pueden usar para crear soluciones internas.
Junto con su capacidad para entender lenguajes naturales, los LLMs comparten otra característica común: las salvaguardas. Estas salvaguardas son las que evitan que los LLMs hagan cualquier cosa que un usuario pida, como proporcionar información protegida o crear código que les permitiría hackear una red. Vale la pena señalar que estas salvaguardas no son perfectas: ciertos comandos pueden eludir estas salvaguardas y permitir que los usuarios generen contenido malicioso. Por ejemplo, la investigación encontró que el competidor de ChatGPT, DeepSeek no logró detener ni uno solo de los 50 comandos maliciosos de "jailbreak".
Los LLM oscuros eliminan las salvaguardias por completo. Típicamente construidos sobre plataformas de código abierto, estos grandes modelos de lenguaje están diseñados con intención maliciosa. A menudo alojados en la web oscura como servicios gratuitos o de pago, los LLM oscuros pueden ayudar a los atacantes a identificar debilidades de seguridad, crear código para atacar sistemas o diseñar versiones más efectivas de ataques de phishing o de ingeniería social.
¿Qué LLMs oscuros son los más populares?
Utilizando herramientas disponibles de forma gratuita junto con una experiencia tecnológica moderada, los atacantes pueden crear su propio LLM. Sin embargo, estos modelos no son todos iguales — al igual que sus contrapartes legítimas, la cantidad y calidad de los datos utilizados para el entrenamiento impactan significativamente la precisión y eficacia de sus resultados.
Los LLM oscuros populares incluyen:
- WormGPT – WormGPT es un LLM de código abierto con seis mil millones de parámetros. Está detrás de un muro de pago en la web oscura y permite a los usuarios liberar ChatGPT. Este LLM oscuro puede ser utilizado para crear y lanzar ataques de fraude del correo electrónico empresarial (BEC).
- FraudGPT – FraudGPT puede escribir código, crear páginas web falsas y descubrir vulnerabilidades. Está disponible tanto en la dark web como a través de servicios como Telegram.
- DarkBard – Basado en el chatbot de IA de Google, Bard, este oscuro LLM ofrece características similares a FraudGPT.
- WolfGPT – Un recién llegado relativo al espacio oscuro de LLM, WolfGPT está codificado en Python y se presenta como una alternativa a ChatGPT, sin las restricciones.
Estos cuatro son solo una muestra de los LLM oscuros disponibles. Por lo general, los usuarios maliciosos pagan para acceder a estas herramientas a través de la web oscura. Probablemente se utilizan como puntos de partida para ataques de red: los actores malintencionados pueden pedir a estos LLM que descubran brechas en la ciberseguridad o que escriban correos electrónicos de phishing de alta calidad que sean difíciles de detectar para el personal.
¿Cómo pueden las empresas mitigar los riesgos de LLM oscuros?
Los LLM oscuros proporcionan buenas respuestas a preguntas malintencionadas, dando a los atacantes una ventaja en la creación de código malicioso y en la identificación de vulnerabilidades de software. Además, casi cualquier LLM puede volverse "oscuro" utilizando el prompt de jailbreak adecuado.
En general, suena bastante sombrío, ¿verdad? No del todo.
Esto se debe a que los LLM sobresalen en mejorar el código y sugerir nuevas vías de ataque, pero no funcionan tan bien en el mundo real cuando se les deja a su suerte. Por ejemplo, el Chicago Sun-Times publicó recientemente una lista de libros imprescindibles para el verano. ¿La advertencia? La lista fue creada por IA, y la mayoría de los libros en ella no son reales. Mientras tanto, el gigante de la comida rápida McDonald's dejó que la IA se encargara de los pedidos en el drive-thru, lo cual tuvo dificultades para lograr que la solución entendiera lo que la gente decía o agregara los artículos correctos a su pedido. En un caso, la interfaz añadió 260 (indeseados) nuggets de pollo. Las mismas limitaciones se aplican a los LLM oscuros. Aunque pueden ayudar a construir mejores herramientas, estas herramientas son más efectivas en manos de humanos.
Esta es una buena noticia para las empresas. Aunque la amenaza de los LLM oscuros sigue siendo preocupante, las mismas prácticas que mantienen los datos seguros ahora ayudarán a defender los activos de los ataques impulsados por LLM. Las mejores prácticas incluyen:
Si ves algo, di algo
Los seres humanos siguen siendo un componente clave de una defensa eficaz. Considere los correos electrónicos de phishing. No importa cuán bien elaborados estén, requieren interacción humana para tener éxito. Al capacitar al personal para que reconozca las características distintivas de Phishing esfuerzos y, lo que es más importante, diga algo cuando vea que algo anda mal, las empresas pueden reducir significativamente su riesgo.
2) Vuelve a lo básico
Cuando tengas dudas, vuelve a lo básico. Las prácticas de seguridad fundamentales, como el cifrado fuerte, la autenticación robusta y el modelo de confianza cero, son igual de efectivas contra los ataques impulsados por IA que contra vectores de amenaza más comunes.
3) Mantente un paso por delante del juego
Las herramientas de IA ayudan a los ciberdelincuentes a crear mejor código y a crear falsificaciones más convincentes. Pero esto no los hace invisibles. Usando herramientas avanzadas de detección y respuesta ante amenazas, las empresas están mejor preparadas para ver las amenazas que se acercan y detenerlas. Las compañías también pueden aprovechar el poder de seguridad habilitada por IA para superar a la inteligencia maliciosa.
En resumen, la IA es tanto una bendición como una maldición para las empresas. Por cada uso ético, hay un equivalente malicioso, y los LLM oscuros son simplemente la última iteración. Aunque son preocupantes, no son imparables. Al combinar la supervisión humana con una sólida higiene de seguridad y herramientas avanzadas de detección, las empresas pueden iluminar los esfuerzos de los atacantes y mantener la oscuridad a raya.
Informe de Barracuda sobre Ransomware 2025
Principales conclusiones sobre la experiencia y el impacto del ransomware en las organizaciones de todo el mundo
Suscríbase al blog de Barracuda.
Regístrese para recibir Threat Spotlight, comentarios de la industria y más.
Seguridad de vulnerabilidades gestionada: corrección más rápida, menos riesgos, cumplimiento normativo más fácil
Descubra lo fácil que es encontrar las vulnerabilidades que los ciberdelincuentes quieren explotar.