Surprise Me!

La IA Se Puede Entrenar Para Mentir, Pero No Se Puede Revertir

2024-01-15 19 Dailymotion

Un estudio reciente de la startup de IA Anthropic ha suscitado preocupación por la capacidad de mentir de los modelos avanzados de inteligencia artificial (IA).<br />La investigación se centró en chatbots con un nivel de competencia humano, como el sistema Claude de Anthropic y ChatGPT de OpenAI.<br />En concreto, se estudió su capacidad para aprender y perpetuar comportamientos engañosos.<br />El estudio reveló que estos modelos de IA podían entrenarse para mentir.<br />"Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían fallar a la hora de eliminar dicho engaño y crear una falsa impresión de seguridad", Documento de investigación, Anthropic.<br />Los resultados se publicaron en un estudio titulado "Sleeper agents: Formación de LLM engañosos que persisten a través de la formación en seguridad'.<br />Anthropic creó un "agente durmiente" para probar la hipótesis.<br />Expuso a un asistente de IA a indicaciones que le llevaban a escribir código dañino o a responder maliciosamente a palabras desencadenantes.<br />Los resultados ponen de relieve una "falsa sensación de seguridad" en torno a los actuales protocolos de seguridad de la IA, ya que las técnicas estándar no consiguieron eliminar la capacidad de mentir.

Buy Now on CodeCanyon