La voracidad de los robots

Extra! Extra! La circulación automatizada de bots superó al tráfico generado por humanos por primera vez!

El tráfico de robots de inteligencia artificial representó 51 % de todo el registrado en la web durante 2024. Este cambio se atribuye al auge de la IA y los modelos de lenguaje de gran tamaño (Large Language Models, LLM), que han simplificado la creación de bots con fines maliciosos y su aplicación a gran escala. Debido a que las herramientas de IA son cada vez más accesibles, los ciber delincuentes aprovechan mejor estas tecnologías para crear e implementar bots maliciosos que ya representan el 37 % de todo el tráfico que circula en Internet,¹

Tanto el sector turístico como el del comercio minorista afrontan un problema complejo de bots, dado que los bots maliciosos representan el 41 %, en el primer fragmento, y 59 %, en el segundo, del total de sus respectivos tráficos. En 2024, la industria de los viajes fue objeto del 27 % de todos los ataques de bots.

Los bots de IA están absorbiendo información a una escala sin precedentes, pero generan hasta un 95.7% menos de tráfico de retorno en comparación con Google. Dicho de otra forma, los chatbots se alimentan de la web, pero no están devolviendo visitas a quienes crean esos contenidos. 2

¿Por qué es importante esto? Cuando eres dueño de un sitio de internet, además del dominio y temas de seguridad, pagas por el uso de servidor. A mayor número de visitantes, mayor ancho de banda, ergo mayor costo. Además, estas visitas indeseables no te generan ningún beneficio en temas de publicidad, ni compran nada.

El aumento del scraping de IA es brutal. Entre el tercer y cuarto trimestre de 2024, la actividad de estos bots creció un 117%. Sitios de noticias, tecnología y comercio son algunos de los más afectados. Y lo peor es que, aunque muchos editores han intentado frenar el acceso a sus contenidos con robots.txt, este mecanismo se está quedando obsoleto. El 40% de los bots ignoran estas restricciones y siguen accediendo a la información como si nada.

Desde principios de 2024, la Fundación Wikimedia ha registrado un aumento del 50% en el consumo de su ancho de banda, (especialmente en su repositorio multimedia Wikimedia Commons). En algunos momentos, como tras la muerte del expresidente de EE.UU. Jimmy Carter, este exceso de tráfico derivó en la saturación de conexiones y tiempos de carga lentos para los lectores.

En términos prácticos, esto significa que un número creciente de conexiones a sus servidores centrales (el 65%, a estas alturas) están siendo ocupadas por rastreadores que ignoran los límites establecidos, como el archivo ‘robots.txt’, que tradicionalmente ha servido para regular los accesos automatizados.

Algunos editores, como la empresa de libros de texto convertida en edtech Chegg, ya están sintiendo —y luchando contra— el desgaste financiero por el uso de su trabajo como resultados de IA.

En una demanda recién presentada, Chegg alega que Google ha “perjudicado profundamente” los ingresos publicitarios del editor al incluir su contenido en la función AI Overview del gigante de las búsquedas. Durante una reciente llamada de ganancias, el CEO de Chegg, Nathan Schultz, admitió que el daño a las ganancias del editor es tan grave que la empresa está considerando privatizarse o ser adquirida.

“Desafortunadamente, el tráfico está siendo bloqueado para que nunca llegue a Chegg,” dijo Schultz durante la llamada, “debido a la AIO de Google y su uso del contenido de Chegg para mantener a los visitantes en su propia plataforma.”

Al analizar las métricas de 160 editores de noticias y blogs, TollBit descubrió que los bots de las empresas de IA rasparon (scrape) esos sitios un promedio de dos millones de veces durante el cuarto trimestre de 2024. Cada página fue raspada alrededor de siete veces en promedio — un esquema de robo de clics, por así decirlo, que resulta en cero ingresos publicitarios para los editores involucrados, ya que los clics de los bots no generan ningún dinero para los anunciantes. 4

Esto es importante porque la gente de marketing se está alejando de Google ya que a pesar de invertir millones, la nueva herramienta de búsqueda de Google es tan eficiente que ya no genera visitas a los enlaces publicitarios.

¿Y cómo defenderse?

Cloudflare ha lanzado AI Labyrinth, una herramienta que no bloquea a los bots, sino que los desvía hacia una red de páginas falsas generadas por inteligencia artificial. Estas páginas, invisibles para los usuarios humanos, contienen textos verídicos, pero irrelevantes que no aportan valor al entrenamiento de modelos. El objetivo no es desinformar, sino hacer perder tiempo y recursos computacionales a los rastreadores

AI Labyrinth, una herramienta que no bloquea a los bots, sino que los desvía hacia una red de páginas falsas generadas por inteligencia artificial.

Otra herramienta es TollBit, una plataforma pionera que ayuda a los sitios web a asegurar una compensación justa por su contenido y datos.

La plataforma permite a los bots de IA y a los raspadores de datos pagar directamente a los sitios web, recompensando la creación de contenido de calidad y mitigando la incertidumbre legal del raspado.La plataforma permite que los bots de IA y los raspadores de datos paguen directamente a los sitios web, recompensando la creación de contenido de calidad y mitigando la incertidumbre legal del raspado.

Tollbit permite a los bots de IA y a los raspadores (scrapers) de datos pagar directamente a los sitios web, recompensando la creación de contenido de calidad y mitigando la incertidumbre legal del raspado.

En el lado de la oferta, los clientes de TollBit son empresas con sitios web de acceso público, cuyos datos son vulnerables al scraping. Incluyen editores, sitios con contenido generado por usuarios y sitios que permiten a los usuarios finales realizar acciones, como los sitios de comercio electrónico. Usando TollBit, los sitios web pueden registrarse y se pueden establecer tarifas y reglas para el acceso autónomo (no humano) a cualquier URL específica.

Tollbit también proporciona análisis poderosos y visibilidad a las empresas sobre el tráfico autónomo. Por otro lado, las empresas que realizan scraping hoy en día pueden usar Tollbit para acceder al contenido y los datos de los sitios web a cambio de una tarifa, obteniendo una versión más limpia y digerible de la página URL.Tollbit permite a los sitios web darse cuenta del verdadero valor de sus datos, que de otro modo estarían expuestos a la extracción sin pago.

La guerra de la IA está a todo swing y seguro que pronto habrá consecuencias por robar contenido a mansalva. Al tiempo.

Protege tu sitio, Arranca Ya!