Cómo auditar tus decisiones con IA: tutorial paso a paso para usar Claude como abogado del diablo

Cómo auditar tus decisiones con IA: tutorial paso a paso par... — Two young adults engaging with VR and touchscreen technology in a futuristic roo

canonical_url: «https://margapress.com/auditar-decisiones-ia-claude-contra-ti-mismo/»


Una de las técnicas más recomendadas en prompt engineering avanzado es la auto-crítica: después de que el modelo produce un output, pedirle que lo critique, identifique sus debilidades y lo mejore. En el laboratorio nos preguntamos cuánto valor añade realmente esta técnica y en qué tipos de error tiene puntos ciegos sistemáticos.

El experimento principal: 90 casos en los que Claude produjo un output con error deliberado introducido, y luego se le pidió que auditara ese output sin saber que tenía un error. Medimos en qué porcentaje detectó cada tipo de error.

Los tipos de error que probamos

Diseñamos cinco categorías de error:

1. Errores de dato: un número incorrecto, una fecha equivocada, un nombre mal escrito.

2. Errores de lógica interna: una conclusión que no se sigue de las premisas presentadas en el mismo texto.

3. Errores de omisión: información relevante que falta pero cuya ausencia no es obvia sin conocimiento externo.

4. Errores de alineación con objetivo: el output cumple las instrucciones superficialmente pero no sirve para el propósito real que se declaró.

5. Errores de calibración: afirmaciones presentadas con certeza que deberían presentarse con más incertidumbre.

Resultado: mapa de detección por tipo de error

Errores de dato: tasa de detección del 61%. Los errores de número y fecha se detectaron mejor que los de nombre (el modelo tiene menos ancla para verificar nombres específicos sin contexto externo).

Errores de lógica interna: tasa de detección del 78%. El resultado más alto del experimento. Claude es razonablemente bueno detectando inconsistencias lógicas dentro de un mismo texto, especialmente cuando la cadena de razonamiento tiene pocos pasos intermedios.

Errores de omisión: tasa de detección del 29%. El resultado más bajo y el más importante de entender. El modelo no puede detectar de forma fiable que falta algo si no sabe qué debería estar. Si el output omite la mención de un riesgo importante, Claude tendería a evaluar el texto como correcto a menos que hubiera sido instruido explícitamente a verificar la presencia de ese riesgo.

Errores de alineación con objetivo: tasa de detección del 44%. Detectados con mayor frecuencia cuando el objetivo se había formulado explícitamente en el prompt original, y con mucha menor frecuencia cuando el objetivo era implícito.

Errores de calibración: tasa de detección del 52%. El modelo detecta relativamente bien cuando una afirmación está sobreconfiada, pero con mayor dificultad cuando el error es en la dirección opuesta (subeconfianza: presentar como incierto algo que se puede afirmar con más solidez).

El punto ciego central: lo que no puede auditar

El hallazgo más importante del experimento: la auto-crítica de Claude es buena para detectar errores que son detectables con el texto disponible, y sistemáticamente débil para detectar errores que requieren conocimiento externo al texto.

Esto tiene una implicación directa: si el error en el output es que falta información crucial que no estaba en el prompt original, la auto-crítica no lo detectará. Si el error es que los datos del cliente que se usaron en el análisis eran incorrectos, la auto-crítica no lo detectará. Si la conclusión es incorrecta porque la premisa de partida era falsa, y esa falsedad no está visible en el texto auditado, la auto-crítica no lo detectará.

La auto-crítica de IA funciona como auditoría interna: buena para detectar inconsistencias dentro del sistema, limitada para detectar problemas que vienen de fuera del sistema.

Cuándo añade valor real y cuándo no

Añade valor real: cuando el output es un razonamiento complejo de varios pasos y quieres verificar la consistencia lógica interna. Cuando el output es un documento largo y quieres verificar que las distintas partes no se contradicen. Cuando quieres una segunda lectura sobre la formulación de afirmaciones (¿estoy siendo demasiado categórico aquí?).

No añade valor suficiente: cuando el posible error es factual y el modelo no tiene acceso a fuentes verificables. Cuando el posible error es de omisión y el modelo no ha sido instruido sobre qué debería estar presente. Cuando el posible error es de alineación con un objetivo implícito que no se formuló explícitamente.

La variante más efectiva: instrucción de auditoría específica

La auto-crítica genérica («¿qué está mal en este texto?») produce resultados mediocres porque el modelo busca errores en las dimensiones más obvias. La variante que produjo mejores resultados en nuestras pruebas: especificar exactamente qué tipo de error buscar.

«Revisa este análisis con enfoque en: (1) si alguna de las conclusiones no se sigue directamente de las premisas presentadas, (2) si hay afirmaciones que deberían ser condicionales pero se presentan como definitivas, y (3) si el análisis podría cambiar significativamente si el supuesto X fuera falso.»

Con instrucción específica, la tasa de detección de errores de lógica y calibración subió al 87% y 71% respectivamente.

El experimento de dos modelos: ¿añade valor usar Sonnet para criticar lo que produjo Opus?

Probamos también una variante: producir el output con Opus y pedir la crítica a Sonnet (o viceversa). La hipótesis era que un modelo distinto tendría menos «inercia» hacia el output que había producido.

Resultado: diferencia marginal. La tasa de detección de errores de lógica mejoró 4 puntos con el modelo diferente. La de errores de dato, 6 puntos. La de omisión, 2 puntos. Las diferencias existen pero son pequeñas.

Lo que sí produjo mayor diferencia: dar al modelo crítico una instrucción de «adoptar el rol de evaluador escéptico cuyo trabajo es encontrar el fallo» versus la instrucción estándar de «revisa y mejora».

El marco de evaluador escéptico aumentó la tasa de detección de errores de alineación del 44% al 63%.


El sistema completo de auditoría de decisiones con IA está en El Empleado Digital.

Descarga el libro en Amazon | Lee el artículo original en MargaPress

Esto es solo una muestra. El libro completo te enseña a convertir la IA en tu empleado más productivo.


Portada del libro El Empleado Digital

📖 El Empleado Digital
Claude y la IA como tu mejor colaborador

👉 Comprar en Amazon

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *