Publicada por lane.sou em 08/04/2007 - 17:06h:
* lane.sou usa Ubuntu

Olá,
gostaria de saber se há algum programa que converta de pdf para html (não em uma imagem que seja chamada no código html).

E que tenha as seguintes restrições:

*mantenha a formatação original do pdf; por exemplo, se no pdf uma palavra esta em negrito, então no código html tenha as tags correspondentes;

*seja de código aberto e que eu possa modificá-lo;

Já usei o pdftohtml mas ele gera uma imagem igual ao pdf que é colocada na página html. E eu preciso que com as tags para poder fazer a extração de dados do pdf a partir da formatação original.

Se vcs souberem de algum programa que faça essa conversão ou para outro formato (mas que tenha a marcação para ajudar na extração dos dados), por favor me avisem =)

Aguardo resposta,
t+


  
 
Resposta de jragomes em 09/04/2007 - 09:20h:
* jragomes usa Ubuntu
* jragomes tem conceito: 9.1
 


tem o pdf2text, mas acho q não te ajuda... já q ele gera um TXT puro, sem tags... apenas respeitando os espaçamentos e paragráfos do pdf.

  


ATENÇÃO: Antes de contribuir com uma resposta, leia o artigo Qualidade de respostas e certifique-se de que esteja realmente contribuindo com a comunidade. Muitas vezes o ímpeto de contribuir nos leva a atrapalhar ao invés de ajudar.

Contribuir com resposta



CAPTCHA
[ Recarregar imagem ]

Digite o código acima:

  
* Nota: só é possível enviar respostas usuário que possui conta e esteja logado com ela, caso contrário sua mensagem será perdida.



Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts