Threat Spotlight: Los buenos, los malos y los «bots grises»: los bots raspadores de IA generativa que atacan sus aplicaciones web

Temas:

2 abr 2025

Los bots son programas de software automatizados diseñados para realizar actividades en línea a gran escala. Existen bots buenos —como los rastreadores de motores de búsqueda, bots de SEO y bots de atención al cliente— y bots malos, diseñados para actividades maliciosas o dañinas en línea, como vulnerar cuentas para robar datos personales o cometer fraude.

En el espacio entre ellos usted encontrará lo que Barracuda denomina «bots grises». Los bots de scraping de IA generativa son bots grises diseñados para extraer grandes volúmenes de datos de sitios web, a menudo para entrenar modelos generativos de IA. Otros ejemplos de bots grises son los bots de scraping web y los agregadores de contenido automatizados que recopilan contenido web como noticias, reseñas, ofertas de viajes, etc.

Los bots grises están difuminando las fronteras de la actividad legítima. No son abiertamente malicioso/a, pero su enfoque puede ser cuestionable. Algunos son sumamente agresivos.

Recientemente informamos sobre cómo las organizaciones pueden proteger mejor sus aplicaciones web, incluidos los sitios web, contra los bots de rastreo de IA generativa. En este informe, analizamos lo que los datos nos dicen sobre la actividad de los bots grises de IA generativa a la que se enfrentan las organizaciones hoy en día.

Los bots grises están hambrientos

Los datos de detección de Barracuda indican que:

Entre diciembre y finales de febrero de 2025, las aplicaciones web recibieron millones de solicitudes de bots de IA generativa, incluidos ClaudeBot y el bot Bytespider de TikTok
Una aplicación web rastreada recibió 9,7 millones de solicitudes de bots de raspado de Gen IA durante un período de 30 días.
Otra aplicación web rastreada recibió más de medio millón de solicitudes de bots de raspado de IA generativa en un solo día.
El análisis del tráfico de bots grises que apuntan a una aplicación web rastreada adicionalmente encontró que las solicitudes se mantuvieron relativamente consistentes durante 24 horas, promediando alrededor de 17 000 solicitudes por hora.

Actividad de los bots scraper durante 24 horas

Esta consistencia del tráfico de solicitudes fue inesperada. En general, se supone, y a menudo es el caso, que el tráfico de bots grises llega en oleadas, impactando un sitio web durante unos minutos o hasta una hora antes de retroceder. Ambos escenarios — bombardeos constantes o subidas de tráfico inesperadas y ad hoc — presentan desafíos para las aplicaciones web.

Impacto empresarial

Los bots grises pueden ser agresivos al recopilar datos y podrían eliminar información sin permiso. La actividad de los bots grises puede saturar el tráfico de las aplicaciones web, interrumpir las operaciones y recopilar grandes volúmenes de datos creativos o comerciales propietarios.

El scraping y el uso posterior de datos protegidos por derechos de autor por parte de los modelos de entrenamiento de IA pueden estar en violación de los derechos legales de los propietarios.

El scraping frecuente por parte de bots incrementa la carga del servidor, lo que puede degradar el rendimiento de las aplicaciones web y afectar la experiencia del usuario.

También pueden incrementar los costos de alojamiento de aplicaciones debido al aumento en el uso de CPU en la nube y el consumo de ancho de banda.

Además, la presencia de bots de raspado de IA puede distorsionar las analíticas del sitio web, dificultando que las organizaciones sigan el comportamiento genuino y tomen decisiones empresariales informadas. Muchas aplicaciones web dependen del seguimiento del comportamiento de los usuarios y de los flujos de trabajo populares para tomar decisiones fundamentadas en datos. Los bots de IA generativa pueden distorsionar estas métricas, lo que lleva a percepciones engañosas y a una mala toma de decisiones.

También hay riesgos para la privacidad de los datos. Algunas industrias, como la sanitaria y la financiera, pueden enfrentar problemas de cumplimiento normativo si se extraen sus datos propietarios o de clientes.

Por último, pero no menos importante, los usuarios y clientes pueden perder la confianza en una plataforma si el contenido generado por IA la inunda o si sus datos se utilizan sin su consentimiento.

Matices de gris

Los bots grises de IA generativa más prolíficos detectados a principios de 2025 incluyen ClaudeBot y el bot de TikTok (Bytespider)..

ClaudeBot

ClaudeBot es el bot gris de IA más activo en nuestro conjunto de datos por un margen considerable. ClaudeBot recopila datos para entrenar a Claude, una herramienta de IA generativa destinada a un uso cotidiano generalizado.

Es probable que las incesantes solicitudes de ClaudeBot afecten a muchas de sus aplicaciones web objetivo. Anthropic, la empresa detrás de Claude, presenta contenido en su sitio web que explica cómo se comporta ClaudeBot y cómo bloquear la actividad de los raspadores.

Este tipo de contenido también aparece en los sitios web de algunos de los otros bots grises detectados por los sistemas de detección de Barracuda, incluidos OpenAI/GPTbot y Google-Extended.

TikTok

TikTok es un servicio de alojamiento de vídeos cortos con poco más de dos mil millones de usuarios en todo el mundo. Es propiedad de la empresa china de internet ByteDance, que utiliza un bot de análisis de IA llamado Bytespider para entrenar modelos de IA generativos. Los datos proporcionan a TikTok información sobre las últimas preferencias y tendencias de los usuarios, lo que ayuda a mejorar el motor de recomendaciones de contenido de TikTok y otras funciones impulsadas por IA, como la búsqueda de palabras clave para publicidad. Se ha informado que Bytespider es particularmente agresivo y sin escrúpulos.

Otros dos bots de rastreo de IA generativa detectados por los sistemas de Barracuda a finales de 2024/principios de 2025 fueron PerplexityBot y DeepSeekBot.

Mantener alejados a los bots grises

Los datos sugieren que los bots grises, como los bots Gen IA, son ahora un componente cotidiano del tráfico de bots en línea y están aquí para quedarse. Es hora de que las organizaciones los integren en las estrategias de seguridad.

Existen directrices para los sitios web y las empresas detrás de los bots de IA generativa. Por ejemplo, los sitios web pueden implementar robots.txt. Esta es una línea de código añadida al sitio web que indica a un raspador que no debe extraer ningún dato de ese sitio.

Robots.txt no es legalmente vinculante. Además, para que robots.txt sea efectivo, es necesario añadir el nombre específico del bot de raspado. Esto allana el camino para que los bots grises menos escrupulosos ignoren la configuración de robots.txt o mantengan confidencial el nombre específico de su raspador o lo cambien regularmente.

Para garantizar que sus aplicaciones web estén protegidas contra el impacto de los bots grises, considere implementar una protección contra bots capaz de detectar y bloquear la actividad de los bots de rastreo generativos de IA.

Por ejemplo, Barracuda Advanced Bot Protection utiliza tecnologías de IA y aprendizaje automático de última generación para enfrentar las amenazas únicas que presentan los bots grises, con detección basada en el comportamiento, aprendizaje automático adaptativo, identificación exhaustiva y bloqueo en tiempo real.

Los bots de IA generativa no son solo una tendencia pasajera; como muestran nuestros datos, ahora son convencionales y persistentes. Parece que los debates éticos, legales y comerciales en torno a los bots grises continuarán durante algún tiempo. Mientras tanto, con las herramientas de seguridad adecuadas, usted tiene la tranquilidad de saber que sus datos siguen siendo suyos.

e-book: El nuevo ABC de la seguridad de las aplicaciones

Rahul Gupta

Rahul Gupta is Senior Principal Software Engineer, Application Security Engineering at Barracuda.

Search the blog