Imagem de texto escaneado convertido em texto puro (OCR)

Publicado por Luis R. C. Silva em 30/10/2012

[ Hits: 11.463 ]

Blog: https://www.vivaolinux.com.br/~luisrcs

 


Imagem de texto escaneado convertido em texto puro (OCR)



Esta dica é para os que querem escanear livros e convertê-los em texto para editá-los.

Instale o GIMP, o tesseract e o tesseract-ocr-por.

Siga os passos:

1. Escaneie a imagem em 600 DPI em modo cores.

2. Abra a imagem no GIMP.

3. Vá no menu: imagem → modo, selecione: Tons de cinza.

4. Vá no menu: cores → Brilho e Contraste. Em brilho coloque: -60 - em contrate coloque: 127.

5. Vá no menu: filtros → Desfocar → Desfocagem gaussiana, e clique em: OK.

6. Vá no menu: filtros → Realçar → Aguçar. Em Acuidade, coloque no máximo e clique em OK.

7. Exporte a imagem com as modificações para um arquivo com extensão ".jpg".

8. Abra um terminal e digite:

tesseract imagem.jpg texto -l por

Onde imagem.jpg é o nome da imagem escaneada, e texto é a saída, que terá extensão ".txt".



Lembrando que todos os comandos devem ser executados dentro da pasta onde encontra-se a imagem escaneada.

Outras dicas deste autor
Nenhuma dica encontrada.
Leitura recomendada

Instalando Gnome, OpenOffice 3 e Firefox 3 no Slackware 12.1

Epson TX125 no Ubuntu 11.04 (sem tormento)

Manipulando arquivos PDF com pdftk

Habilitar nested paging em libvirt 0.8.3

Red Hat Lança o Red Hat Enterprise Linux v.4

  

Comentários
[1] Comentário enviado por julio_hoffimann em 30/10/2012 - 22:29h

Ótima dica!

Abraço!

[2] Comentário enviado por Morvan em 01/11/2012 - 09:41h

Bom dia.

Excelente dica. Daquelas que a gente não pode não comentar.
Luis R. C. Silva, sabendo-se que o GIMP tem uma integração com o Python muito boa, será que alguém ainda não desenvolveu um "Wrapper" para estes passos?

Abraços,

Morvan, Usuário Linux #433640.



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts