ciudad mobileciudad
En vivo
Ciudad MagazineTecno

Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios.

03 de mayo 2023, 18:08hs
Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post
Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Los modelos de inteligencia artificial (IA) se entrenan con páginas web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor, según ha concluido The Washington Post en una investigación reciente.

Esta cabecera ha analizado varios conjuntos de datos que se utilizan para entrenar a la IA y, en concreto, ha estudiado el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web que utilizados para "instruir a algunas IA de alto perfil". Entre ellas, T5 de Google o LLaMA de Facebook.

En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web utilizando Similarweb y descubrió que no se podían clasificar alrededor de un tercio de ellas porque no aparecían en internet.

Una vez hecha la criba, clasificó los 10 millones de sitios web restantes en función de la cantidad de 'tokens' -fragmentos de texto que se utilizan para procesar información- que aparecieron de cada uno en este conjunto de datos.

El periódico ha reconocido que la mayoría de estas páginas web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de 'software', ciencia y salud.

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Es el caso de espacios como Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, "lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios".

Con ello, ha recordado la problemática existente con los derechos de autor de estas ibras y la demanda colectiva de un grupo de artistas interpuesta el pasado enero a tres compañías dedicadas al arte digital - Stability AI, DeviantArt y Midjourney- por infringir el 'copywright' en el desarrollo de obras artísticas con la herramienta Stable Difussion.

Por otra parte, este periódico ha advertido que estos modelos de IA también se entrenan con 'chatbots' que comparten información sesgada que podría "conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan rastrearlos hasta la fuente original".

Fuente: EP.

Temas de la nota

Tecno

Más notas sobre Tecno

Cómo evitar que una marca suene a robot con un detector de IA

Cómo evitar que una marca suene a robot con un detector de IA

Esta es la razón por la que Instagram reitera su apuesta por los vídeos cortos

Esta es la razón por la que Instagram reitera su apuesta por los vídeos cortos

X impulsa el acceso y el uso de Grok con un rediseño de la interfaz web: por qué se facilitará la interacción

X impulsa el acceso y el uso de Grok con un rediseño de la interfaz web: por qué se facilitará la interacción

Los comentarios publicados en ciudad.com.ar podrán ser reproducidos parcial o totalmente en la pantalla de Ciudad Magazine, como así también las imágenes de los autores.

© 1996 - 2025, Artear

Seguinos en las redes

Últimas noticias

  • El secreto para preparar un omelette súper esponjoso con un relleno diferente
  • El truco que va a convertir tu mouse de chocolate en un postre original
  • Fáciles, rápidas y sabrosas: la receta para preparar tortillitas de mandioca y queso
  • Aptos celíacos: la receta para que no te prives de unos deliciosos alfajores maicena

Secciones

  • Espectáculos
  • Actualidad
  • Internacional
  • Exclusivo
  • Horóscopo
  • Cine y Series
  • Videos
  • Música
  • Qué Look

Sitios amigos

  • Canal (á)
  • Cucinare
  • El Doce
  • eltrece
  • Cienradios
  • Clarín
  • Grupo Clarín
  • La 100
  • La Voz del Interior
  • Mitre
  • Olé
  • Quiero Música
  • TN
  • TyC Sports
  • Vía País

Seguinos en las redes

© 1996 - 2025, Artear

Mapa del sitio
Aviso Legal
Políticas de privacidad
Media Kit