Extracttext - como extrair texto de uma área selecionada da tela

Este artigo descreve como extrair texto de uma área selecionada da tela usando shell script, tesseract-ocr e ImageMagick. É uma excelente ferramenta para extrair texto de imagens, permitindo que os usuários acessem o conteúdo de qualquer área selecionada da tela. Além disso, oferece uma variada gama de opções de personalização para ajustar a extração de texto às suas necessidades.

[ Hits: 2.882 ]

Por: Fábio Berbert de Paula em 24/02/2023 | Blog: https://fabio.automatizando.dev


Introdução



A ideia para a criação do script apresentado neste artigo surgiu a partir de uma sugestão do Bruno Gonçalves, criador e mantenedor da distribuição BigLinux. Sim, o BigLinux possui um script parecido já integrado em sua interface gráfica.

O script surgiu da necessidade de extrair texto de uma área da tela, seja um texto de uma imagem ou de um site que bloqueia o copiar. Eu estava fazendo uns testes de skills em programação online e queria copiar o enunciado das questões e colar no ChatGPT, para testar se a IA conseguiria responder as questões com precisão.

Para sua implementação utilizaremos shell script, tesseract-ocr, xsel e ImageMagick, onde:
  • tesseract-ocr é um software de reconhecimento óptico de caracteres (OCR) que permite extrair texto de imagens;
  • xsel é um utilitário de linha de comando que permite copiar e colar texto na área de transferência;
  • ImageMagick é um conjunto de ferramentas de manipulação de imagens. Neste caso, utilizaremos o comando "import" para capturar a área selecionada da tela.

Dependências

Em distribuições baseadas em Debian, instale os pacotes necessários com o comando:

sudo apt install tesseract-ocr imagemagick xsel

Download do script

Para baixar o script, execute o comando:

wget https://github.com/fberbert/extracttext/releases/download/Latest/extracttext

Dê permissão de execução ao script:

chmod +x extracttext

E mova o script para o diretório /usr/local/bin ou qualquer outro diretório que esteja no seu $PATH:

sudo mv extracttext /usr/local/bin

Como usar

Para usar o script, basta executar o comando:

extracttext

O cursor do mouse irá se transformar em uma cruz, e você poderá selecionar a área da tela que deseja extrair o texto. Após selecionar a área, o texto será copiado para a área de transferência e você poderá colar em qualquer lugar.

DICA: eu uso o KDE Plasma como interface gráfica, criei uma tecla de atalho que executa o script, desta forma, toda vez que desejo extrair algum texto da tecla, eu teclo "Alt + t" e pronto, não preciso abrir o terminal para executar o script.

Para criar uma tecla de atalho no KDE Plasma, basta ir em "Configurações do Sistema" > "Atalhos de Teclado" > "Atalhos Personalizados" e criar um novo atalho.

Referência

O código-fonte do script pode ser encontrado no meu repositório do GitHub:
Até a próxima!

   

Páginas do artigo
   1. Introdução
Outros artigos deste autor

SQL Dicas & Truques (parte 2)

O Surgimento do Linux

Como criar um keylogger em Python

O que são distribuições

Implementando um tradutor de línguas no seu web site

Leitura recomendada

Como programar backup com rsync e cron de maneira rápida e simples

GNU Parallel: criando atividades em paralelo com shell script

flock - Gerenciador de lockfiles

Script GitPratico para criar repositórios remotos sem logar no GitHub

Monitoramento de pops para provedores

  
Comentários
[1] Comentário enviado por nandosilva em 24/02/2023 - 20:43h


Excelente script :-)

[2] Comentário enviado por maurixnovatrento em 12/03/2023 - 15:02h


Já vou favoritar a ferramenta.

___________________________________________________________
Conhecimento não se Leva para o Túmulo.
https://github.com/mxnt10


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts