ciudad mobileciudad
En vivo
Ciudad MagazineTecno

Los modelos de lenguaje pueden entrenarse para mostrar un comportamiento engañoso, que además persiste

un grupo de investigadores descubrió si los modelos pueden mostrar comportamientos engañosos y si estos pueden detectarse y eliminarse.

26 de febrero 2024, 03:10hs
Los modelos de lenguaje pueden entrenarse para mostrar un comportamiento engañoso, que además persiste

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) pueden entrenarse para ofrecer a los usuarios respuestas engañosas.

Estos a su vez persisten pese a posteriores intentos de depurar o corregir la información que ofrecen.

Al igual que los humanos adaptan u ocultan sus motivaciones para alinearse con el fin que persiguen ante una audiencia determinada, la inteligencia artificial también presenta un perfil similar.

Cuenta con unas “presiones de selección” parecidas.

Esto ha llevado a un grupo de investigadores a descubrir si los modelos pueden mostrar comportamientos engañosos y si estos pueden detectarse y eliminarse.

Para este estudio, en el que participan investigadores de Anthropic, han construido ejemplos supervisados de comportamiento engañoso en LLM.

Lo diseñaron mediante un entrenamiento solapado: el entrenamiento de modelos que escriben código seguro cuando el mensaje indica que el año es 2023.

Sin embargo, indicaron que inserta código con vulnerabilidades cuando el año indicado es 2024.

ELIMINAR COMPORTAMIENTOS ENGAÑOSOS

Luego, estos ejemplos se sometieron a técnicas seguras de entrenamiento para eliminar los comportamientos engañosos.

No obstante, descubrieron que esto solo puede eliminar “el comportamiento inseguro que es visible durante el entrenamiento y la evaluación”.

En esta línea, apuntaron que se salta los modelos con una alineación engañosa instrumental que parecen ser seguros durante el entrenamiento.

Esto se traduce en que dicho comportamiento engañoso se vuelve persistente, como apuntan los investigadores en el texto de la investigación, publicado en Arxiv.

Concretamente, concluyen que “cuando un modelo exhibe un comportamiento engañoso, las técnicas estándar pueden fallar al eliminar dicho engaño y crear una falsa impresión de seguridad”.

También apuntaron que en lugar de eliminar el entrenamiento solapado, se puede recurrir al entrenamiento adversario.

CONSOLIDAR LOS MODELOS

Esto sería con el fin de enseñar a los modelos a reconocer mejor los desencadenantes de su comportamiento engañoso para que lo oculten.

“Podemos entrenar modelos solapados que producen un razonamiento consistente y coherente en relación con su puerta trasera”, informaron.

A su vez, indicaron que pueden “encontrar que dichos modelos muestran un incremento de su robustez ante técnicas seguras de ajuste, incluso cuando el razonamiento se destila”.

Fuente: EP.

Temas de la nota

Tecno

Más notas sobre Tecno

Cómo evitar que una marca suene a robot con un detector de IA

Cómo evitar que una marca suene a robot con un detector de IA

Esta es la razón por la que Instagram reitera su apuesta por los vídeos cortos

Esta es la razón por la que Instagram reitera su apuesta por los vídeos cortos

X impulsa el acceso y el uso de Grok con un rediseño de la interfaz web: por qué se facilitará la interacción

X impulsa el acceso y el uso de Grok con un rediseño de la interfaz web: por qué se facilitará la interacción

Los comentarios publicados en ciudad.com.ar podrán ser reproducidos parcial o totalmente en la pantalla de Ciudad Magazine, como así también las imágenes de los autores.

© 1996 - 2025, Artear

Seguinos en las redes

Últimas noticias

  • Qué dice el nuevo parte médico de la Locomotora Oliveras, a 24 horas de sufrir un ACV
  • Empezar el día - Programa del 15/07/25 - LA CERCANÍA ENTRE RICKY MARAVILLA MENEM
  • Darío Barassi celebró el éxito de Ahora Caigo en su nuevo horario
  • La frase de la mamá de Camila Homs que desató el rumor de embarazo

Secciones

  • Espectáculos
  • Actualidad
  • Internacional
  • Exclusivo
  • Horóscopo
  • Cine y Series
  • Videos
  • Música
  • Qué Look

Sitios amigos

  • Canal (á)
  • Cucinare
  • El Doce
  • eltrece
  • Cienradios
  • Clarín
  • Grupo Clarín
  • La 100
  • La Voz del Interior
  • Mitre
  • Olé
  • Quiero Música
  • TN
  • TyC Sports
  • Vía País

Seguinos en las redes

© 1996 - 2025, Artear

Mapa del sitio
Aviso Legal
Políticas de privacidad
Media Kit