Extraindo imagens de arquivos PDF, usando uma simples linha de comando.

Muitos usuários ainda não conhecem essa ferramenta que é bastante útil. Primeiro, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição, testei no Ubuntu 16.04 LTS e o pacote já veio instalado, então é só executar os comandos sem precisar instalar nada.

Para fazer a instalação, abra o terminal e cole os comandos abaixo:

Ubuntu e Derivados

sudo apt-get install poppler-utils

Red Hat/Fedora

sudo yum install poppler-utils

Para fazer a instalação em outras distribuições procure por poppler-utils em seu gerenciador de pacotes.

Este comando irá extrair todas as imagens de “pdffile.pdf” e colocá-los no diretório /home/<seusuario>/pdfimages/:

Exemplo

pdftotext pdffile.pdf
Vale observar que este comando só vai extrair o texto real. Se o PDF contém imagens com texto impresso sobre eles, então isso não vai funcionar.

Até a próxima!!!