ciudad mobileciudad
Iniciar sesión
Ver Ciudad en vivo

Secciones

Últimas Noticias
Espectáculos
Exclusivo
Actualidad
Cocina
Videos
Magazine
Horóscopo
Cine y Series
Qué Look
Internacional
Virales
Tecno
Música
Teatro
Los Más Clickeados

Seguinos en las redes

Ciudad MagazineTecno

La nueva función de Cloudflare que limita el uso de datos para entrenar IA: ¿De qué se trata?

Su propósito es evitar que estos bots realicen ‘web scraping’ en los sitios web de sus clientes. El avance de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o ejecutar inferencias.

18 de agosto 2024, 17:20hs

Cloudflare ha introducido una nueva función gratuita en sus servicios de Internet. Esta herramienta bloquea automáticamente los bots de Inteligencia Artificial (IA).

Su propósito es evitar que estos bots realicen ‘web scraping’ en los sitios web de sus clientes.

El avance de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o ejecutar inferencias. El ‘web scraping’ es uno de los métodos más comunes para obtener estos datos.

EL USO DE DATOS PARA ENTRENAR LA IA

Este proceso legal utiliza software para extraer contenido HTML de sitios web. Luego, filtra y almacena la información necesaria para entrenar modelos de IA.

Cloudflare lanzó una nueva función gratuita en sus servicios de Internet.

Algunas empresas que desarrollan herramientas basadas en IA identifican los bots de raspado web. Sin embargo, no todas las compañías son tan transparentes.

Cloudflare ha declarado que sus clientes desean proteger sus sitios web de los bots de IA, especialmente de aquellos que actúan de manera deshonesta.

CLOUDFLARE BUSCA OFRECER UNA INTERNET SEGURA

El objetivo es impedir que realicen ‘web scraping’ y recopilen datos.

La compañía ha comunicado esta novedad a través de su sitio web. Cloudflare busca mantener una Internet segura para los creadores de contenido.

Quiere evitar que los datos de los sitios de sus clientes sean usados para entrenar IA.

La función está disponible con un solo clic. Todos los clientes de Cloudflare pueden acceder a ella, incluso los que usan el nivel gratuito del servicio.

COMO ACTIVAR LA FUNCIÓN

Esto incluye la aplicación 1.1.1.1 y la plataforma SASE & SSE. Para activar la función, los usuarios deben ir al menú ‘Seguridad’ y seleccionar ‘Bots’.

Luego, deben activar la opción ‘Raspadores y rastreadores de IA’. Esto bloqueará los bots que intentan raspar contenido para entrenar modelos de IA.

Busca prevenir que estos bots hagan 'web scraping' en los sitios web de sus clientes.

Cloudflare actualizará esta función automáticamente. Agregará nuevas huellas de bots infractores identificados como “rastreadores web de gran alcance”.

La actualización se basará en el análisis del tráfico en su red, proporcionando un conocimiento integral sobre la actividad de los rastreadores de IA.

BOTS DE IA MÁS UTILIZADOS ACTUALMENTE

Cloudflare ha lanzado una nueva función para bloquear bots de IA en sitios web. Además, ha compartido datos sobre el uso actual de bots para ‘web scraping’.

Según sus análisis, los bots más comunes en su red incluyen Bytespider de ByteDance, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI.

Bytespider ha intentado acceder al 40,40% de los sitios web clientes de Cloudflare. GPTBot sigue de cerca con un 35,46% de acceso. ClaudeBot, en cambio, ha accedido al 11,17% de los sitios.

EL ACCESO DE LOS BOTS DE IA

Cloudflare advierte que muchos clientes podrían no saber que estos rastreadores de IA están activos en sus sitios web.

A pesar de la alta actividad de los bots, la compañía sugiere que los usuarios deben estar atentos a estas visitas.

El 'web scraping' es un método común para obtener estos datos.

Cloudflare ha revelado que en junio, los bots de IA accedieron al 39% de las propiedades más importantes en Internet que utilizan su servicio.

EL OBJETIVO DE OFRECER UN CONTROL TOTAL

Solo el 2,98% de estas webs tomó medidas para bloquear dichas solicitudes. La compañía afirma que seguirá trabajando para proteger a los creadores de contenido.

Su objetivo es permitirles mantener el control total sobre cómo se utilizan sus datos para entrenar modelos de IA.

Otras plataformas también están tomando medidas similares. Reddit, por ejemplo, planea actualizar su Protocolo de Exclusión de Robots (robots.txt).

La actualización bloqueará el acceso de bots automatizados a sus datos públicos para evitar el raspado de datos.

Fuente: EP.

Temas de la nota

TecnoIA

Más notas sobre Tecno

Quotex: Operar parece sencillo, pero en realidad no lo es

EXCLUSIVO

Sebastián Darcyl presentó LIT, la app que vincula marcas e influencers: “Somos como un Tinder”

Por Fernando Gatti

Cómo evitar que una marca suene a robot con un detector de IA

Participá con tu comentario
Los comentarios publicados en ciudad.com.ar podrán ser reproducidos parcial o totalmente en la pantalla de Ciudad Magazine, como así también las imágenes de los autores.

© 1996 - 2025, Artear

Seguinos en las redes

Últimas noticias

  • Luis Ventura reveló cuántos millones de dólares debería Marcelo Tinelli y quién es su principal acreedor
  • Se filtró cómo es la verdadera relación de Marcelo Tinelli con su hijo Francisco
  • Escándalo en el clan Tinelli: en este video, Pampito te cuenta toda la verdad
  • Daniela Herrero contó por qué no fue a cantar en un evento feminista: “Sabemos que tocás con varones, pero...”

Secciones

  • Espectáculos
  • Actualidad
  • Internacional
  • Exclusivo
  • Horóscopo
  • Cine y Series
  • Videos
  • Música
  • Qué Look

Sitios amigos

  • Canal (á)
  • Cucinare
  • El Doce
  • eltrece
  • Cienradios
  • Clarín
  • Grupo Clarín
  • La 100
  • La Voz del Interior
  • Mitre
  • Olé
  • Quiero Música
  • TN
  • TyC Sports
  • Vía País

Seguinos en las redes

© 1996 - 2025, Artear

Mapa del sitio
Aviso Legal
Políticas de privacidad
Media Kit