La nueva función de Cloudflare que limita el uso de datos para entrenar IA: ¿De qué se trata?

Su propósito es evitar que estos bots realicen ‘web scraping’ en los sitios web de sus clientes. El avance de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o ejecutar inferencias.

18 de agosto 2024, 17:20hs

La nueva función de Cloudflare que limita el uso de datos para entrenar IA: ¿De qué se trata?

Cloudflare ha introducido una nueva función gratuita en sus servicios de Internet. Esta herramienta bloquea automáticamente los bots de Inteligencia Artificial (IA).

Su propósito es evitar que estos bots realicen ‘web scraping’ en los sitios web de sus clientes.

El avance de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o ejecutar inferencias. El ‘web scraping’ es uno de los métodos más comunes para obtener estos datos.

EL USO DE DATOS PARA ENTRENAR LA IA

Este proceso legal utiliza software para extraer contenido HTML de sitios web. Luego, filtra y almacena la información necesaria para entrenar modelos de IA.

Cloudflare lanzó una nueva función gratuita en sus servicios de Internet.

Algunas empresas que desarrollan herramientas basadas en IA identifican los bots de raspado web. Sin embargo, no todas las compañías son tan transparentes.

Cloudflare ha declarado que sus clientes desean proteger sus sitios web de los bots de IA, especialmente de aquellos que actúan de manera deshonesta.

CLOUDFLARE BUSCA OFRECER UNA INTERNET SEGURA

El objetivo es impedir que realicen ‘web scraping’ y recopilen datos.

La compañía ha comunicado esta novedad a través de su sitio web. Cloudflare busca mantener una Internet segura para los creadores de contenido.

Quiere evitar que los datos de los sitios de sus clientes sean usados para entrenar IA.

La función está disponible con un solo clic. Todos los clientes de Cloudflare pueden acceder a ella, incluso los que usan el nivel gratuito del servicio.

COMO ACTIVAR LA FUNCIÓN

Esto incluye la aplicación 1.1.1.1 y la plataforma SASE & SSE. Para activar la función, los usuarios deben ir al menú ‘Seguridad’ y seleccionar ‘Bots’.

Luego, deben activar la opción ‘Raspadores y rastreadores de IA’. Esto bloqueará los bots que intentan raspar contenido para entrenar modelos de IA.

Busca prevenir que estos bots hagan 'web scraping' en los sitios web de sus clientes.

Cloudflare actualizará esta función automáticamente. Agregará nuevas huellas de bots infractores identificados como “rastreadores web de gran alcance”.

La actualización se basará en el análisis del tráfico en su red, proporcionando un conocimiento integral sobre la actividad de los rastreadores de IA.

BOTS DE IA MÁS UTILIZADOS ACTUALMENTE

Cloudflare ha lanzado una nueva función para bloquear bots de IA en sitios web. Además, ha compartido datos sobre el uso actual de bots para ‘web scraping’.

Según sus análisis, los bots más comunes en su red incluyen Bytespider de ByteDance, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI.

Bytespider ha intentado acceder al 40,40% de los sitios web clientes de Cloudflare. GPTBot sigue de cerca con un 35,46% de acceso. ClaudeBot, en cambio, ha accedido al 11,17% de los sitios.

EL ACCESO DE LOS BOTS DE IA

Cloudflare advierte que muchos clientes podrían no saber que estos rastreadores de IA están activos en sus sitios web.

A pesar de la alta actividad de los bots, la compañía sugiere que los usuarios deben estar atentos a estas visitas.

El 'web scraping' es un método común para obtener estos datos.

Cloudflare ha revelado que en junio, los bots de IA accedieron al 39% de las propiedades más importantes en Internet que utilizan su servicio.

EL OBJETIVO DE OFRECER UN CONTROL TOTAL

Solo el 2,98% de estas webs tomó medidas para bloquear dichas solicitudes. La compañía afirma que seguirá trabajando para proteger a los creadores de contenido.

Su objetivo es permitirles mantener el control total sobre cómo se utilizan sus datos para entrenar modelos de IA.

Otras plataformas también están tomando medidas similares. Reddit, por ejemplo, planea actualizar su Protocolo de Exclusión de Robots (robots.txt).

La actualización bloqueará el acceso de bots automatizados a sus datos públicos para evitar el raspado de datos.

Fuente: EP.