Phase 12 - Lesson 22

Comprensión de Documentos y Diagramas

Los documentos no son fotos. Un PDF, artículo científico, factura o formulario manuscrito tiene diseño, tablas, diagramas, notas al pie, encabezados y estructura semántica que la simple comprensión de imágenes no puede capturar. La stack pre-VLM era un pipeline: Tesseract OCR + LayoutLMv3 + heurísticas de extracción de tablas. La ola de VLMs reemplazó eso con modelos sin OCR — Donut (2022), Nougat (2023), DocLLM (2023) — que emiten marcado estructurado directamente. Para 2026, la frontera es simplemente "enviar la imagen de la página a Claude Opus 4.7 en su resolución nativa de 2576px," y la salida de marcado estructurado viene de regalo. Esta lección analiza la trayectoria de tres eras de la IA de documentos.

Tipo: Construir Lenguajes: Python (stdlib, esqueleto de parser de documentos consciente del diseño) Requisitos previos: Fase 12 · 05 (LLaVA), Fase 5 (NLP) Tiempo: ~180 minutos

Objetivos de Aprendizaje

  • Explicar las tres eras de la IA de documentos: pipeline de OCR, sin OCR (OCR-free) y nativo de VLM.
  • Describir los tres flujos de entrada de LayoutLMv3: texto, diseño (bbox) y parches de imagen, con enmascaramiento unificado.
  • Comparar Donut (sin OCR, imagen → marcado), Nougat (artículo científico → LaTeX), DocLLM (generativo consciente del diseño) y PaliGemma 2 (nativo de VLM).
  • Elegir un modelo de documento para una nueva tarea (facturas, artículos científicos, formularios manuscritos, recibos en chino).

El Problema

"Entender este PDF" es engañosamente difícil. La información se encuentra en:

  • Contenido de texto (90% de la señal).
  • Diseño (encabezados, notas al pie, barras laterales, formato de dos columnas).
  • Tablas (filas, columnas, celdas combinadas).
  • Figuras y diagramas.
  • Anotaciones manuscritas.
  • Fuentes y tipografía (título vs. cuerpo).

El OCR puro extrae solo el texto y pierde el resto. Un sistema que maneja facturas necesita saber que "Total:

,245" provino de la parte inferior derecha, no de una nota al pie.

El Concepto

Era 1 — Pipeline de OCR (pre-2021)

La stack clásica:

  1. PDF → imagen por página.
  2. Tesseract (u OCR comercial) extrae texto con cajas delimitadoras (bounding boxes) por palabra.
  3. El analizador de diseño identifica bloques (encabezado, tabla, párrafo).
  4. El reconocedor de estructura de tablas analiza las tablas.
  5. Regras de dominio + regex extraen los campos.

Funciona para texto impreso limpio. Falla con la escritura a mano, escaneos inclinados, tablas complejas y escritas no latinas. Cada modo de fallo requiere una ruta de excepción personalizada.

TrOCR (2021)

TrOCR (Li et al., arXiv:2109.10282) reemplazó el clásico CNN-CTC de Tesseract con un transformer encoder-decoder entrenado en imágenes de texto sintéticas + reales. Victoria clara en texto manuscrito y multilingüe. Sigue siendo un pipeline (detector, luego TrOCR, luego diseño), pero el paso de OCR mejoró drásticamente.

Era 2 — Sin OCR / OCR-free (2022-2023)

Los primeros modelos sin OCR propusieron: omitir la detección por completo, mapear los píxeles de la imagen directamente a la salida estructurada.

Donut (Kim et al., arXiv:2111.15664):

  • Transformer encoder-decoder, el encoder es Swin-B.
  • La salida es JSON para comprensión de formularios, markdown para resumen o cualquier otro esquema específico de la tarea.
  • Sin OCR, sin diseño, sin detección.

Nougat (Blecher et al., arXiv:2308.13418):

  • Entrenado específicamente en artículos científicos.
  • La salida es LaTeX / markdown.
  • Maneja ecuaciones, diseño de columnas múltiples, figuras.
  • El modelo al que recurre todo parser de arXiv.

Estos son especialistas, no generalistas. Donut en un artículo científico falla; Nougat en una factura falla.

LayoutLMv3 (2022)

Un camino diferente. LayoutLMv3 (Huang et al., arXiv:2204.08387) conserva el OCR pero agrega comprensión de diseño:

  • Tres flujos de entrada: tokens de texto de OCR, cajas delimitadoras (bbox) 2D por token y parches de imagen.
  • Objetivo de entrenamiento enmascarado en las tres modalidades (texto enmascarado, parches enmascarados, diseño enmascarado).
  • Tareas a la baja (downstream): clasificación, extracción de entidades, QA de tablas.

LayoutLMv3 es la cúspide de la comprensión de documentos basada en OCR. Fuerte en formularios y facturas. Requiere OCR ascendente (upstream). Mejor precisión pre-VLM en benchmarks de documentos estandarizados.

DocLLM (2023)

DocLLM (Wang et al., arXiv:2401.00908) es el hermano generativo de LayoutLM. Genera respuestas de texto libre condicionadas a tokens de diseño. Es mejor para QA en documentos; aún depende de la entrada de OCR.

Era 3 — Nativo de VLM (2024+)

En 2024, los VLMs se volvieron lo suficientemente buenos como para reemplazar el pipeline por completo. Envía la imagen completa de la página en alta resolución a un VLM, haz la pregunta y obtén una respuesta.

  • LLaVA-NeXT de 336 tiles AnyRes funciona para documentos pequeños.
  • La resolución dinámica de Qwen2.5-VL maneja nativamente más de 2048 píxeles.
  • Claude Opus 4.7 admite documentos de 2576px.
  • PaliGemma 2 (abril de 2025) entrena específicamente para documentos + escritura a mano.

La brecha entre el nativo de VLM y el pipeline de OCR se cerró rápidamente. Para 2026, el nativo de VLM gana en:

  • Texto en escena (manuscrito + impreso, escritas mixtas).
  • Tablas complejas con celdas combinadas.
  • Ecuaciones matemáticas incrustadas en el texto.
  • Figuras con anotaciones de texto.

Los pipelines de OCR siguen ganando en:

  • Cargas de trabajo de escaneo puro a escala masiva donde importa la latencia por página.
  • Confiabilidad del pipeline (fallos deterministas vs. alucinaciones de VLM).
  • Entornos regulados que requieren salida de OCR auditable.

La frontera de Claude 4.7 / GPT-5

Con una entrada nativa de 2576 píxeles, los VLMs de frontera comprenden documentos con una precisión casi humana. Los números de los benchmarks de principios de 2026:

  • DocVQA: Claude 4.7 ~95.1, PaliGemma 2 ~88.4, Nougat ~77.3, LayoutLMv3 en pipeline ~83.
  • ChartQA: Claude 4.7 ~92.2, GPT-4V ~78.
  • VisualMRC: Claude 4.7 ~94.

La brecha de los modelos cerrados es principalmente resolución y escala del LLM base. Los modelos abiertos de 7B están unos puntos por detrás, pero se están poniendo al día rápidamente.

Ecuaciones matemáticas y salida LaTeX

Los artículos científicos necesitan una salida LaTeX exacta para las ecuaciones. Nougat fue entrenado en esto. Los VLMs entrenados con objetivos de LaTeX (Qwen2.5-VL-Math, derivados de Nougat) producen LaTeX utilizable. Sin un entrenamiento explícito en LaTeX, los VLMs producen transcripciones legibles pero imprecisas.

Para pipelines de artículos científicos en 2026: encadena Nougat en el PDF, luego un VLM en las páginas difíciles.

Escritura a mano

Sigue siendo la subtarea más difícil. El formato mixto impreso + manuscrito (notas médicas, formularios completados) es donde los pipelines de OCR aún superan a los VLMs en costo. Los VLMs exclusivos para manuscritos están mejorando (Claude 4.7, PaliGemma 2).

Receta para 2026

Para un nuevo proyecto de IA de documentos:

  • Facturas puramente impresas a escala: LayoutLMv3 + reglas, costo-eficiente.
  • Documentos mixtos (científicos + manuscritos + formularios): nativo de VLM (PaliGemma 2 o Qwen2.5-VL).
  • Ingestión completa de arXiv: Nougat para matemáticas, VLM para figuras.
  • Regulación: pipeline de OCR + validador de VLM para doble verificación.

Use It

code/main.py:

  • Un tokenizador simplificado consciente del diseño: dadas duplas (texto, bbox), produce la entrada al estilo de LayoutLMv3.
  • Un generador de esquemas de tareas al estilo de Donut: plantilla JSON para formularios.
  • Una comparación de presupuestos de tokens por página entre pipeline de OCR, Donut, Nougat y nativo de VLM.

Ship It

Esta lección produce outputs/skill-document-ai-stack-picker.md. Dado un proyecto de IA de documentos (dominio, escala, calidad, regulación), elige entre pipeline de OCR, especialista sin OCR (OCR-free) y nativo de VLM.

Exercises

  1. Tu proyecto es de 10 millones de facturas al día. ¿Qué stack minimiza el costo por página sin perder precisión?

  2. ¿Por qué LayoutLMv3 supera a los VLMs puramente basados en CLIP en QA de formularios, pero tiene un rendimiento inferior en texto en escena? ¿Qué deja de capturar el flujo de bbox?

  3. Nougat genera LaTeX. Propón un caso de prueba donde la salida nativa de VLM supere a Nougat en fidelidad de LaTeX, y un caso donde gane Nougat.

  4. Lee el artículo de PaliGemma 2 (Google, 2024). ¿Cuál fue la adición clave de datos de entrenamiento que elevó la precisión en documentos en comparación con PaliGemma 1?

  5. Diseña un híbrido seguro para regulación: pipeline de OCR como primario, VLM como doble verificación secundaria. ¿Cómo resuelves los desacuerdos?

Key Terms

Término Lo que dice la gente Lo que realmente significa
Pipeline de OCR "Estilo Tesseract" Stack en etapas: detección -> OCR -> diseño -> reglas; determinista, frágil
Sin OCR (OCR-free) "Estilo Donut" Transformer de imagen a salida que omite el OCR explícito; modelo único
Consciente del diseño "LayoutLM" La entrada incluye coordenadas bbox por token; enmascaramiento unificado entre modalidades
Nativo de VLM "VLM de frontera" Envía la imagen de la página directamente a un VLM Claude/GPT/Qwen en alta resolución; sin pipeline
DocVQA "Benchmark de docs" Estándar de VQA para documentos; puntuación más citada
Salida de marcado "LaTeX / MD" Formato de salida estructurado en lugar de texto libre; permite la automatización posterior

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).