Aprenda instalar Docling com interface em sua máquina para extrair textos de documentos e enviar para ChatGPT, Ollama, OpenWebUI etc..
Docling é uma biblioteca de processamento de documentos com suporte a PDF, Word, Excel, HTML e imagens. Docling transforma tudo isso em dados estruturados, como JSON ou Markdown. Com suporte integrado para detecção de layout, análise de tabelas e processamento com reconhecimento de idioma, o Docling agiliza a preparação de documentos para aplicações de IA, como pesquisa e resumo, tudo isso por meio de uma interface.
Antes de continuar, certifique de ter instalado Docker em sua máquina. Portanto acesse o site https://docs.docker.com/desktop/setup/install/windows-install/ e siga o procedimento normal de instalação em seu sistema.
Depois, com o Docker executando em sua máquina abra o prompt de comando (terminal / CMD) e digite o comando abaixo para instalar o Docling:
Caso não possua placa de vídeo dedicada utilize:
[docker run -d -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve]
Com placa de vídeo dedicada:
[docker run -d --gpus all -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve]
Após enviar o comando, aguarde o download e configuração do Docling.
Quando instalado com sucesso, a aplicação estará disponível no endereço http://0.0.0.0:5001/ui conforme ilustra a imagem abaixo:
Ou simplesmente acesse http://localhost:5001/ui/ . A interface é bem intuitiva, selecione "Convert File" e faça upload de um arquivo do seu computador.
Depois de subir o arquivo, clique em "Process File" e aguarde. Finalizado a conversão, navegue nas guias Docling (JSON), Markdown, para ver o resultado e salvar em seu computador.
Agora você pode subir o novo arquivo na sua IA favorita. Você notará que a IA fornecerá resultados mais precisos que anteriormente.
Dicas:
Caso veja a mensagem de error abaixo em seu OpenWebUI, altere a URL do Content Extraction Engine para http://ip-local:5001/ , onde ip-local deve ser substituído pelo IP da sua máquina em vez de localhost ou 0.0.0.0 .
[HTTPConnectionPool(host='localhost', port=5001): Max retries exceeded with url: /v1alpha/convert/file (Caused by NewConnectionError('<urllib3.connection.HTTPCo nnection object at 0x7f8f4c1b1050>: Failed to establish a new connection: [Errno 111] Connection refused'))]