El informe define el sabotaje como la situación en la que un modelo de IA con acceso a capacidades poderosas dentro de una organización utiliza dichas herramientas para "explotar, manipular o alterar de forma autónoma los sistemas o la toma de decisiones de esa organización" de una manera que aumente el riesgo de catástrofes futuras.
Según el informe, esto podría ocurrir mediante la alteración de los resultados de la investigación de seguridad de la IA o la inserción de vulnerabilidades de ciberseguridad.
"Este informe de riesgo argumenta que Claude Opus 4.6 no plantea un riesgo significativo de acciones autónomas que contribuyan significativamente a resultados catastróficos posteriores, a lo que nos referimos como riesgo de sabotaje. Argumentamos que el riesgo general es muy bajo pero no insignificante”, sostiene el documento.

La evaluación de Anthropic se basa en cuatro afirmaciones fundamentales que respaldan la seguridad del modelo:

El informe identifica ocho vías potenciales de peligro, que van desde el sabotaje selectivo de la investigación de seguridad hasta el envenenamiento de los datos de entrenamiento de futuros modelos. Para contrarrestar estos escenarios, Anthropic emplea medidas de seguridad y monitoreo interno, como la supervisión automática de código y controles sobre la seguridad de los pesos del modelo.
Resulta profundamente positivo que las propias empresas desarrolladoras elaboren y publiquen informes de riesgo detallados sobre sus productos antes y durante su despliegue. Esta práctica, ejemplificada por Anthropic, no solo ayuda a dimensionar los riesgos potenciales de tecnologías tan potentes, sino que establece un estándar ético en la industria.
Este tipo de iniciativas deben enmarcarse en una política de transparencia proactiva que debería ser imitada por otras empresas del sector de la Inteligencia Artificial. No es suficiente con la autorregulación; es imperativo que este esfuerzo privado sea acompañado por el Estado.
La regulación pública debería incentivar y formalizar estas políticas de transparencia, garantizando que el escrutinio de los riesgos no sea una opción voluntaria, sino un requisito fundamental para operar en el ecosistema tecnológico global. Solo a través de la publicación de estos hallazgos, incluso cuando se redacta información sensible por razones de seguridad, la sociedad y los reguladores pueden comprender el verdadero alcance de los desafíos a fututo.
Accedé al Informe completo