Pular para o conteúdo

Filtrar texto de um arquivo html [RESOLVIDO]

Responder tópico
  • Denunciar
  • Indicar

1. Filtrar texto de um arquivo html [RESOLVIDO]

Enviado em 27/10/2011 - 17:18h

Olá pessoal,
estou tentanto fazer um script shell que faça a extração de todos os textos de um arquivo .html
Para isso, achei melhor fazer a extração de textos que encontram - se entre um sinal de ">" e "<". Estou tentando usar o sed para fazer isso, mas não estou conseguindo. Meu objetivo é pegar todo texto que está entre os simbolos que comecem com > e que terminem com <.

Agradeço desde já.

Responder tópico

2. Re: Filtrar texto de um arquivo html [RESOLVIDO]

Melhor resposta

Enviado em 27/10/2011 - 19:25h

Solução genérica:

$ sed 's/<[^>]*>//g' arquivo.html > arquivo.txt

Responder tópico

Responder tópico

Entre na sua conta para responder.

Fazer login para responder