A IBM lançou uma biblioteca Python gratuita que converte QUALQUER documento em dados: o Docling é uma biblioteca Python que simplifica o processamento de documentos, analisando diversos formatos — incluindo compreensão avançada de PDF — e fornecendo integrações perfeitas com o ecossistema de IA gen.

Para cada formato de documento, o conversor sabe qual backend específico do formato empregar para analisá-lo e qual pipeline usar para orquestrar a execução, juntamente com quaisquer opções relevantes.
O Docling inclui: – Backends de PDF para análise; Modelo de análise de layout; Formatador de tabela baseado em visão; OCR para texto

