Publicidad Danone
INTELIGENCIA ARTIFICIAL

Publicado 13/02/2026

Claude: evaluación del riesgo de sabotaje y políticas de transparencia en la IA de frontera

En un paso significativo hacia la responsabilidad corporativa en el sector tecnológico, Anthropic ha publicado su más reciente "Informe de Riesgo de Sabotaje" para su modelo más avanzado hasta la fecha, Claude Opus 4.6. El documento concluye que, si bien el riesgo de que el modelo realice acciones autónomas que conduzcan a resultados catastróficos es “muy bajo”, este no es “insignificante”.
Compartir
Compartir por Facebook Compartir por WhatsApp Compartir por X Compartir por Telegram

En un paso significativo hacia la responsabilidad corporativa en el sector tecnológico, Anthropic ha publicado su más reciente "Informe de Riesgo de Sabotaje" para su modelo más avanzado hasta la fecha, Claude Opus 4.6. El documento concluye que, si bien el riesgo de que el modelo realice acciones autónomas que conduzcan a resultados catastróficos es “muy bajo”, este no es “insignificante”.

El informe define el sabotaje como la situación en la que un modelo de IA con acceso a capacidades poderosas dentro de una organización utiliza dichas herramientas para "explotar, manipular o alterar de forma autónoma los sistemas o la toma de decisiones de esa organización" de una manera que aumente el riesgo de catástrofes futuras.

Según el informe, esto podría ocurrir mediante la alteración de los resultados de la investigación de seguridad de la IA o la inserción de vulnerabilidades de ciberseguridad.

"Este informe de riesgo argumenta que Claude Opus 4.6 no plantea un riesgo significativo de acciones autónomas que contribuyan significativamente a resultados catastróficos posteriores, a lo que nos referimos como riesgo de sabotaje. Argumentamos que el riesgo general es muy bajo pero no insignificante”, sostiene el documento.

 

 

La evaluación de Anthropic se basa en cuatro afirmaciones fundamentales que respaldan la seguridad del modelo:

  1. Expectativas previas: Es poco probable que los modelos entrenados con las prácticas estándar actuales desarrollen objetivos desalineados coherentes y peligrosos.
  2. Evaluación de alineación: Las pruebas previas al despliegue, que incluyeron escenarios simulados e investigaciones de interpretabilidad, no encontraron evidencia de objetivos desalineados peligrosos en Claude Opus 4.6.
  3. Incapacidad de engaño: Se considera muy poco probable que el modelo sea capaz de ocultar objetivos peligrosos durante las evaluaciones de seguridad.
  4. Capacidades limitadas: Claude Opus 4.6 posee límites en su capacidad de razonamiento opaco y en la implementación de planes complejos a largo plazo, lo que dificulta acciones dañinas ambiciosas.

 

 

El informe identifica ocho vías potenciales de peligro, que van desde el sabotaje selectivo de la investigación de seguridad hasta el envenenamiento de los datos de entrenamiento de futuros modelos. Para contrarrestar estos escenarios, Anthropic emplea medidas de seguridad y monitoreo interno, como la supervisión automática de código y controles sobre la seguridad de los pesos del modelo.

Resulta profundamente positivo que las propias empresas desarrolladoras elaboren y publiquen informes de riesgo detallados sobre sus productos antes y durante su despliegue. Esta práctica, ejemplificada por Anthropic, no solo ayuda a dimensionar los riesgos potenciales de tecnologías tan potentes, sino que establece un estándar ético en la industria.

Este tipo de iniciativas deben enmarcarse en una política de transparencia proactiva que debería ser imitada por otras empresas del sector de la Inteligencia Artificial. No es suficiente con la autorregulación; es imperativo que este esfuerzo privado sea acompañado por el Estado.

La regulación pública debería incentivar y formalizar estas políticas de transparencia, garantizando que el escrutinio de los riesgos no sea una opción voluntaria, sino un requisito fundamental para operar en el ecosistema tecnológico global. Solo a través de la publicación de estos hallazgos, incluso cuando se redacta información sensible por razones de seguridad, la sociedad y los reguladores pueden comprender el verdadero alcance de los desafíos a fututo.

Accedé al Informe completo