Cómo analizar documentos con Claude: tutorial paso a paso para extraer datos sin inventar nada

canonical_url: «https://margapress.com/claude-analizar-documentos-subir-imagenes-datos/»

Cuando alguien dice que «la IA analiza documentos», está usando una frase que puede significar cosas muy distintas. Puede significar que genera un resumen razonable de 200 palabras. Puede significar que extrae campos específicos con precisión verificable. O puede significar que interpreta el contenido y saca conclusiones que van más allá de lo que el texto dice explícitamente.

Estos tres tipos de análisis tienen tasas de error muy diferentes, y confundirlos es la fuente de la mayoría de las decepciones con IA para procesamiento documental. En el laboratorio medimos los tres por separado, con tipos de documento variados. Esto es lo que encontramos.

La taxonomía que usamos: tres niveles de análisis

Antes de los números, la clasificación que estructura el experimento:

Nivel 1 — Extracción directa: recuperar información que está explícitamente en el documento. Fecha de firma de un contrato, importe total de una factura, nombre del proveedor. La información existe, está en el texto, y la tarea es encontrarla y devolverla en formato estructurado.

Nivel 2 — Síntesis estructurada: combinar información de distintas partes del documento para producir una visión de conjunto. Las condiciones principales de un contrato de arrendamiento. Los puntos de riesgo de un informe de auditoría. El modelo tiene que leer todo, seleccionar lo relevante y organizarlo.

Nivel 3 — Inferencia e interpretación: sacar conclusiones que no están escritas explícitamente. «¿Es esta cláusula favorable o desfavorable para el arrendatario?» «¿Qué riesgos implícitos tiene este balance?» Requiere razonamiento sobre el contenido, no solo lectura.

Los documentos que probamos

Para que los resultados fueran comparables a trabajo real, usamos cuatro tipos de documento:

Contratos estándar: acuerdos de servicios, arrendamientos, contratos de trabajo. Texto legal estructurado, vocabulario técnico pero predecible.
Facturas y documentos financieros: facturas de proveedores, albaranes, notas de abono. Datos numéricos, fechas, importes.
Informes técnicos: informes de mantenimiento, inspecciones, auditorías técnicas. Texto semiestructurado con mezcla de datos y narrativa.
Emails de negociación: cadenas de correos con acuerdos parciales, cambios de posición, condiciones implícitas. El tipo más complejo: información distribuida, no estructurada y con contexto implícito.

Resultado por nivel de análisis

Nivel 1 — Extracción directa

En documentos limpios (texto nativo, bien formateado), la tasa de error en extracción directa fue del 4-7%. Los errores más frecuentes: fechas en formatos no estándar (especialmente cuando hay varias fechas en el documento con propósitos distintos), y campos numéricos cuando el documento usa punto y coma de forma inconsistente.

En documentos escaneados (PDF de imagen), la tasa sube al 11-18% por problemas de reconocimiento óptico. El error no lo comete Claude: viene del OCR previo que convierte la imagen en texto. Claude trabaja sobre ese texto ya degradado.

Técnica que baja el error a la mitad en documentos escaneados: pedir al modelo que identifique explícitamente los campos donde no está seguro en lugar de rellenar con su mejor estimación. Con esta instrucción, la tasa de errores silenciosos (datos erróneos presentados como correctos) bajó del 15% al 7% en nuestra muestra.

Nivel 2 — Síntesis estructurada

Aquí la tasa de error depende mucho del tipo de documento. En contratos estándar, el modelo produce síntesis correctas y completas en el 79% de los casos a primera respuesta. En emails de negociación, baja al 54%.

La causa principal de los fallos en síntesis: el modelo tiende a incluir condiciones que están presentes en el texto pero que ya fueron modificadas o reemplazadas en mensajes posteriores. En cadenas de email, la «versión vigente» de un acuerdo no es siempre la primera que aparece.

Técnica efectiva: añadir la instrucción «si el documento contiene revisiones o modificaciones de términos anteriores, usa siempre la versión más reciente». Esta instrucción redujo los errores de síntesis en emails de negociación del 46% al 22%.

Nivel 3 — Inferencia e interpretación

Este es el nivel más complejo y donde los resultados son más variables. La tasa de «error» aquí es difícil de medir objetivamente porque depende del marco de referencia del evaluador.

Lo que sí medimos con precisión: en el 34% de los casos, el modelo presentó interpretaciones como conclusiones definitivas cuando deberían haberse presentado como probabilidades o hipótesis. Por ejemplo, «esta cláusula es desfavorable para el arrendatario» en lugar de «esta cláusula podría interpretarse como desfavorable para el arrendatario bajo ciertas condiciones».

Técnica efectiva: pedir explícitamente que el modelo distinga entre «lo que el documento dice» y «lo que el documento implica». Esta instrucción aumentó la calibración de las respuestas de forma significativa: el 89% de las interpretaciones en los casos con esta instrucción incluían algún tipo de cualificación o condición, frente al 61% sin ella.

El tipo de documento más problemático: emails de negociación

Los emails merecen mención especial porque representan el caso más común en trabajo profesional y el más complicado para la IA.

El problema no es la longitud. El problema es la estructura implícita. Un email de negociación no dice «la condición A fue aceptada pero la condición B fue rechazada y reemplazada por la condición C». Lo muestra a través de una secuencia de mensajes donde cada uno modifica parcialmente al anterior, con cambios de tono que indican acuerdo o resistencia, y con acuerdos implícitos que no se formulan nunca de forma explícita.

En nuestras pruebas con cadenas de email reales (anonimizadas), el modelo produjo síntesis correctas y completas de forma autónoma en el 38% de los casos. Con instrucciones específicas sobre cómo tratar las revisiones y cómo señalar la incertidumbre, subió al 67%.

El 33% restante requirió revisión humana independientemente de las instrucciones. Son los casos donde la cadena tiene más de cinco mensajes, hay más de tres condiciones distintas en discusión, o el acuerdo final se negoció parcialmente fuera del hilo (por teléfono, reunión presencial o mensaje aparte).

La instrucción que más impacta en todos los niveles

Si tuvieras que añadir una sola instrucción a tus prompts de análisis documental, esta es la que más reduce errores en los tres niveles:

«Cuando extraigas información, distingue explícitamente entre: (a) lo que el documento dice literalmente, (b) lo que infiero que significa, y (c) los campos donde no estoy seguro del valor correcto. No rellenes campos inciertos con tu mejor estimación sin avisar.»

En nuestras pruebas, esta instrucción redujo los errores silenciosos (información incorrecta presentada sin aviso de incertidumbre) en un 58% en promedio a través de los cuatro tipos de documento.

El sistema completo para extraer información útil y fiable de documentos está desarrollado en Tu Empleado Digital.

Descarga el libro en Amazon | Lee el artículo original en MargaPress

Esto es solo una muestra. El libro completo te enseña a convertir la IA en tu empleado más productivo.

📖 Tu Empleado Digital
Claude y la IA como tu mejor colaborador

👉 Comprar en Amazon

📖 Más recursos en nuestra red

Encuentra más contenido relacionado en:

MargaPress
MargaBooks
MargaLab
CursoTutorial

Cómo analizar documentos con Claude: tutorial paso a paso para extraer datos sin inventar nada

La taxonomía que usamos: tres niveles de análisis

Los documentos que probamos