OCR - converter imagens em texto

Publicado por Xerxes em 22/09/2022

[ Hits: 4.774 ]

 


OCR - converter imagens em texto



Dica testada no Debian 11.

O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.

Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.

Instale o tesseract:

sudo apt install tesseract-ocr

E um idioma:

sudo apt-get install tesseract-ocr-[IDIOMA]

Exemplo para português:

sudo apt-get install tesseract-ocr-por

Ou pode instalar todos os idiomas:

sudo apt-get install tesseract-ocr-all

Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor

Para realizar a conversão com idioma português, veja um exemplo:

tesseract -l por imagem_entrada.png arquivo_saida

O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".

Basta ver o resultado com:

cat arquivo_saida.txt

Veja uma imagem com exemplo:
Fontes:
Outras dicas deste autor

Reading package lists... Error! [Resolvido]

App do Facebook pesado? Use a versão Lite!

Como remover o Kmail sem remover o xorg e outros componentes importantes do sistema no Debian ou Devuan

Blog oficial do Linus Torvalds

Melhor maneira de instalar Gnome no Slackware

Leitura recomendada

Instalação de pacotes em sistemas Sabayon sem acesso à rede

Convertendo imagens e documentos em texto puro (.txt)

dd - status através dos comandos kill e pgrep

Usando o dpkg-repack

Executando comandos Linux com o timeout

  

Comentários
[1] Comentário enviado por Carlos_Cunha em 27/09/2022 - 14:42h

Legal!!!!


#-------------------------------------------------------------------------------------#
"Falar é fácil, me mostre o código." - Linus Torvalds
#-------------------------------------------------------------------------------------#

[2] Comentário enviado por maurixnovatrento em 23/10/2022 - 15:51h


Bem legal. Já anotado.

___________________________________________________________
Conhecimento não se Leva para o Túmulo.
https://github.com/mxnt10



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts