ciudad mobileciudad
En vivo
Ciudad MagazineTecno

Los modelos de lenguaje pueden entrenarse para mostrar un comportamiento engañoso, que además persiste

Al igual que los humanos adaptan u ocultan sus motivaciones para alinearse con el fin que persiguen ante una audiencia, la IA también presenta unas “presiones de selección” parecidas.

11 de febrero 2024, 07:47hs
Los modelos de lenguaje pueden entrenarse para mostrar un comportamiento engañoso, que además persiste
Seguinos en Google

Los grandes modelos de lenguaje pueden entrenarse para ofrecer a los usuarios respuestas engañosas, que además persisten pese a posteriores intentos de depurar o corregir la información.

Al igual que los humanos adaptan u ocultan sus motivaciones para alinearse con el fin que persiguen ante una audiencia, la IA también presenta unas “presiones de selección” parecidas.

Esto ha llevado a un grupo de investigadores a descubrir si los modelos pueden mostrar comportamientos engañosos y si estos pueden detectarse y eliminarse.

Para este estudio, en el que participan investigadores de Anthropic, diseñaron ejemplos supervisados de comportamiento engañoso en LLM mediante un entrenamiento solapado.

Se trata del entrenamiento de modelos que escriben código seguro cuando el mensaje indica que el año es 2023, pero que inserta código con vulnerabilidades cuando el año indicado es 2024.

Posteriormente, estos ejemplos se sometieron a técnicas seguras de entrenamiento para eliminar los comportamientos engañosos.

SOLO ELIMINA EL COMPORTAMIENTO VISIBLE

Sin embargo, descubrieron que esto solo puede eliminar “el comportamiento inseguro que es visible durante el entrenamiento y la evaluación”.

Es decir, se salta los modelos con una alineación engañosa instrumental que parecen ser seguros durante el entrenamiento.

Esto se traduce en que dicho comportamiento engañoso se vuelve persistente, como apuntan los investigadores en el texto de la investigación, publicado en Arxiv.

Concretamente, concluyen que “cuando un modelo exhibe un comportamiento engañoso, las técnicas estándar pueden fallar al eliminar dicho engaño y crear una falsa impresión de seguridad”.

También apuntaron que en lugar de eliminar el entrenamiento solapado, se puede recurrir al entrenamiento adversario.

Esto es con el fin de enseñar a los modelos a reconocer mejor los desencadenantes de su comportamiento engañoso para que lo oculten.

“Podemos entrenar modelos solapados que producen un razonamiento consistente y coherente en relación con su puerta trasera”.

Además, aseguraron que pueden “encontrar que dichos modelos muestran un incremento de su robustez”.

Esto es, según señalan, “ante técnicas seguras de ajuste, incluso cuando el razonamiento se destila”.

Fuente: EP.

Temas de la nota

Tecno

Más notas sobre Tecno

Las mejores herramientas para descargar Series de TV

Las mejores herramientas para descargar Series de TV

Quotex: Operar parece sencillo, pero en realidad no lo es

Quotex: Operar parece sencillo, pero en realidad no lo es

Sebastián Darcyl presentó LIT, la app que vincula marcas e influencers: “Somos como un Tinder”
EXCLUSIVO

Sebastián Darcyl presentó LIT, la app que vincula marcas e influencers: “Somos como un Tinder”

Por Fernando Gatti

© 1996 - 2026, Artear

Seguinos en las redes

Últimas noticias

  • Andrea del Boca fue al baño en Gran Hermano y encontró el inodoro lleno de caca: “Un asco”
  • Tini Stoessel, Emilia Mernes y María Becerra: Martín Cirio reveló que el motivo de la pelea “es muy fuerte”
  • Rocío Marengo mostró cómo le cortó el pelo por primera vez a su bebé: “Se portó muy bien”
  • Paula Chaves relató el mal momento que vivió con su perro: “Estuvo cerca de la parca”

Secciones

  • Espectáculos
  • Actualidad
  • Internacional
  • Exclusivo
  • Horóscopo
  • Cine y Series
  • Videos
  • Música
  • Qué Look

Sitios amigos

  • Canal (á)
  • Cucinare
  • El Doce
  • eltrece
  • Cienradios
  • Clarín
  • Grupo Clarín
  • La 100
  • La Voz del Interior
  • Mitre
  • Olé
  • Quiero Música
  • TN
  • TyC Sports
  • Vía País

Seguinos en las redes

© 1996 - 2026, Artear

Mapa del sitioAviso LegalPolíticas de privacidadMedia Kit