Phase 12 - Lesson 22

Compreensão de Documentos e Diagramas

Documentos não são fotos. Um PDF, artigo científico, fatura ou formulário manuscrito possui layout, tabelas, diagramas, notas de rodapé, cabeçalhos e estrutura semântica que a simples compreensão de imagens não consegue capturar. A stack pré-VLM era um pipeline: Tesseract OCR + LayoutLMv3 + heurísticas de extração de tabelas. A onda de VLMs substituiu isso por modelos sem OCR — Donut (2022), Nougat (2023), DocLLM (2023) — que emitem marcação estruturada diretamente. Em 2026, a fronteira é simplesmente "enviar a imagem da página para o Claude Opus 4.7 em sua resolução nativa de 2576px," e a saída de marcação estruturada vem de graça. Esta lição analisa a trajetória de três eras da IA de documentos.

Tipo: Construir Linguagens: Python (stdlib, esqueleto de parser de documentos ciente de layout) Pré-requisitos: Fase 12 · 05 (LLaVA), Fase 5 (NLP) Tempo: ~180 minutos

Objetivos de Aprendizagem

Explicar as três eras da IA de documentos: pipeline de OCR, sem OCR (OCR-free) e nativo de VLM.
Descrever os três fluxos de entrada do LayoutLMv3: texto, layout (bbox) e patches de imagem, com mascaramento unificado.
Comparar Donut (sem OCR, imagem → marcação), Nougat (artigo científico → LaTeX), DocLLM (gerativo ciente de layout) e PaliGemma 2 (nativo de VLM).
Escolher um modelo de documento para uma nova tarefa (faturas, artigos científicos, formulários manuscritos, recibos em chinês).

O Problema

"Entender este PDF" é enganosamente difícil. A informação está contida em:

Conteúdo de texto (90% do sinal).
Layout (cabeçalhos, notas de rodapé, barras laterais, formato de duas colunas).
Tabelas (linhas, colunas, células mescladas).
Figuras e diagramas.
Anotações manuscritas.
Fontes e tipografia (título vs. corpo).

O OCR puro extrai apenas o texto e perde o restante. Um sistema que lida com faturas precisa saber que "Total:

,245" veio do canto inferior direito, e não de uma nota de rodapé.

O Conceito

Era 1 — Pipeline de OCR (pré-2021)

A stack clássica:

PDF → imagem por página.
Tesseract (ou OCR comercial) extrai o texto com caixas delimitadoras (bounding boxes) por palavra.
O analisador de layout identifica os blocos (cabeçalho, tabela, parágrafo).
O reconhecedor de estrutura de tabela analisa as tabelas.
Regras de domínio + regex extraem os campos.

Funciona para textos impressos limpos. Falha em escrita à mão, digitalizações inclinadas, tabelas complexas e escritas não latinas. Cada modo de falha exige um caminho de exceção customizado.

TrOCR (2021)

O TrOCR (Li et al., arXiv:2109.10282) substituiu o clássico CNN-CTC do Tesseract por um encoder-decoder transformer treinado em imagens de texto sintéticas + reais. Vitória clara em textos manuscritos e multilíngues. Ainda é um pipeline (detector, depois TrOCR, depois layout), mas a etapa de OCR melhorou drasticamente.

Era 2 — Sem OCR / OCR-free (2022-2023)

Os primeiros modelos sem OCR propuseram: pular totalmente a detecção e mapear os pixels da imagem diretamente para a saída estruturada.

Donut (Kim et al., arXiv:2111.15664):

Transformer encoder-decoder, o encoder é o Swin-B.
A saída é um JSON para compreensão de formulários, markdown para sumarização ou qualquer outro esquema específico da tarefa.
Sem OCR, sem layout, sem detecção.

Nougat (Blecher et al., arXiv:2308.13418):

Treinado especificamente para artigos científicos.
A saída é em LaTeX / markdown.
Lida com equações, layout de colunas múltiplas e figuras.
O modelo que todo parser do arXiv utiliza.

Esses modelos são especialistas, não generalistas. O Donut falha em um artigo científico; o Nougat falha em uma fatura.

LayoutLMv3 (2022)

Uma abordagem diferente. O LayoutLMv3 (Huang et al., arXiv:2204.08387) mantém o OCR, mas adiciona a compreensão de layout:

Três fluxos de entrada: tokens de texto do OCR, caixas delimitadoras (bbox) 2D por token e patches de imagem.
Objetivo de treinamento mascarado em todas as três modalidades (texto mascarado, patches mascarados, layout mascarado).
Aplicações a jusante (downstream): classificação, extração de entidades, QA de tabelas.

O LayoutLMv3 representa o auge da compreensão de documentos baseada em OCR. É forte em formulários e faturas. Exige OCR na etapa anterior (upstream). Melhor acurácia pré-VLM em benchmarks de documentos padronizados.

DocLLM (2023)

O DocLLM (Wang et al., arXiv:2401.00908) é o irmão gerativo do LayoutLM. Ele gera respostas em texto livre condicionadas a tokens de layout. É melhor para perguntas e respostas (QA) sobre documentos, mas ainda depende de entrada de OCR.

Era 3 — Nativo de VLM (2024+)

Em 2024, os VLMs tornaram-se bons o suficiente para substituir o pipeline por completo. Basta enviar a imagem da página inteira em alta resolução para um VLM, fazer a pergunta e obter a resposta.

LLaVA-NeXT de 336 tiles AnyRes funciona bem para documentos pequenos.
A resolução dinâmica do Qwen2.5-VL lida nativamente com mais de 2048 pixels.
O Claude Opus 4.7 suporta documentos de 2576px.
O PaliGemma 2 (abril de 2025) treina especificamente para documentos + escrita à mão.

A diferença entre o nativo de VLM e o pipeline de OCR diminuiu rapidamente. Em 2026, o nativo de VLM vence em:

Texto em cena (manuscrito + impresso, escritas mistas).
Tabelas complexas com células mescladas.
Equações matemáticas incorporadas no texto.
Figuras com anotações de texto.

Os pipelines de OCR ainda vencem em:

Cargas de trabalho puras de digitalização em escala massiva onde a latência por página é crítica.
Confiabilidade do pipeline (falhas determinísticas vs. alucinações de VLM).
Ambientes regulatórios que exigem saídas de OCR auditáveis.

A fronteira do Claude 4.7 / GPT-5

Com uma entrada nativa de 2576 pixels, os VLMs de fronteira realizam a compreensão de documentos com acurácia quase humana. Os números dos benchmarks do início de 2026 são:

DocVQA: Claude 4.7 ~95.1, PaliGemma 2 ~88.4, Nougat ~77.3, LayoutLMv3 em pipeline ~83.
ChartQA: Claude 4.7 ~92.2, GPT-4V ~78.
VisualMRC: Claude 4.7 ~94.

A diferença para modelos fechados reside principalmente na resolução e na escala do LLM base. Os modelos abertos de 7B estão alguns pontos atrás, mas estão alcançando rapidamente.

Equações matemáticas e saída em LaTeX

Os artigos científicos precisam de saída LaTeX exata para equações. O Nougat foi treinado especificamente para isso. VLMs treinados com alvos em LaTeX (Qwen2.5-VL-Math, derivados do Nougat) produzem LaTeX utilizável. Sem um treinamento explícito em LaTeX, os VLMs geram transcrições legíveis, mas imprecisas.

Para pipelines de artigos científicos em 2026: encadeie o Nougat no PDF e, em seguida, utilize um VLM nas páginas mais difíceis.

Escrita à mão

Ainda é a subtarefa mais difícil. O formato misto de texto impresso + manuscrito (anotações médicas, formulários preenchidos) é onde os pipelines de OCR ainda superam os VLMs em termos de custo. Os VLMs focados exclusivamente em manuscritos estão melhorando (Claude 4.7, PaliGemma 2).

Receita para 2026

Para um novo projeto de IA de documentos:

Faturas puramente impressas em larga escala: LayoutLMv3 + regras, apresentando ótimo custo-benefício.
Documentos mistos (científicos + manuscritos + formulários): nativo de VLM (PaliGemma 2 ou Qwen2.5-VL).
Ingestão completa do arXiv: Nougat para matemática, VLM para figuras.
Regulatório: pipeline de OCR + validador de VLM para dupla checagem.

Use It

code/main.py:

Um tokenizador simplificado ciente de layout: dadas duplas (texto, bbox), produz a entrada no estilo do LayoutLMv3.
Um gerador de esquemas de tarefas no estilo do Donut: template JSON para formulários.
Uma comparação de orçamentos de tokens por página entre pipeline de OCR, Donut, Nougat e nativo de VLM.

Ship It

Esta lição produz outputs/skill-document-ai-stack-picker.md. Dado um projeto de IA de documentos (domínio, escala, qualidade, regulatório), escolhe entre pipeline de OCR, especialista sem OCR (OCR-free) e nativo de VLM.

Exercises

Seu projeto processa 10 milhões de faturas por dia. Qual stack minimiza o custo por página sem perder acurácia?
Por que o LayoutLMv3 supera os VLMs puramente baseados em CLIP em QA de formulários, mas fica atrás em textos de cena? O que o fluxo de bbox deixa de capturar?
O Nougat gera LaTeX. Proponha um caso de teste em que a saída do nativo de VLM supere o Nougat em fidelidade de LaTeX, e um caso em que o Nougat vença.
Leia o artigo do PaliGemma 2 (Google, 2024). Qual foi a principal adição de dados de treinamento que elevou a acurácia em documentos em comparação ao PaliGemma 1?
Projete um sistema híbrido seguro para regulação: pipeline de OCR como principal e VLM como dupla checagem secundária. Como você resolve as divergências?

Key Terms

Termo	O que as pessoas dizem	O que realmente significa
Pipeline de OCR	"Estilo Tesseract"	Stack em etapas: detecção -> OCR -> layout -> regras; determinístico, frágil
Sem OCR (OCR-free)	"Estilo Donut"	Transformer de imagem para saída que pula o OCR explícito; modelo único
Ciente de layout	"LayoutLM"	A entrada inclui coordenadas bbox por token; mascaramento unificado entre modalidades
Nativo de VLM	"VLM de fronteira"	Envia a imagem da página diretamente para um VLM Claude/GPT/Qwen em alta resolução; sem pipeline
DocVQA	"Benchmark de docs"	Padrão de VQA para documentos; pontuação mais citada
Saída de marcação	"LaTeX / MD"	Formato de saída estruturado em vez de texto livre; possibilita automação a jusante