Wget - Baixando sites inteiros

Publicado por Jonatas Augusto em 24/04/2012

[ Hits: 97.177 ]

Blog: http://hotplugdicas.blogspot.com

 


Wget - Baixando sites inteiros



Wget - Pequena Grande Ferramenta para Linux, Windows e MacOS*.

- Meu problema:

Ontem, emulando Snes no PSP com o emulador Snes9x, percebi a opção de adicionar códigos de Game Genie pelo próprio emulador.

Game Genie, pra quem não conhece, são códigos que podem mudar os valores dos endereçamentos de memória de uma ROM para habilitar, ou modificar, opções que não estão disponíveis por default. Possibilitando ter vida infinita, começar um jogo com todos os itens ativados, modificar itens, etc.

Existem diversos sites especializados em consoles, 'roms' e emuladores que disponibilizam os códigos para infinitas ROMs para vários consoles.

Como não achei viável ter que acessar a Net sempre que quisesse um código específico para o game que estivesse jogando, pensei que poderia encontrar na Net algum pacote de códigos Game Genie pronto pra download. Mas não encontrei.

- A solução:

Lembrei-me, então, do wget.

Durante muito tempo, utilizei o wget como gerenciador de downloads e não raro, diversos tutoriais e Scripts utilizam-no como parte do processo, caso seja necessário fazer downloads de atualizações e dependências via linha de comando.

Explorando o wget, aprendi que o este aplicativo não só gerencia downloads, mas utilizado-o com os parâmetros corretos, também pode automatizar o processo de download, somente de arquivos específicos, bem como baixar um site inteiro!

Ou seja, basta executá-lo como um simples comando com os parâmetros corretos, para se ter a galeria de Wallpapers completa daquele site especializado em imagens, sem ter que salvá-las uma a uma; ou ainda, Blogs inteiros para poder ler seus conteúdos Offline!

Além de tudo, o wget é muito simples de utilizar.

Por exemplo, com o simples comando abaixo, pode-se baixar um site inteiro:

wget -r http://www.endereço_do_site

O comando irá criar um diretório com o nome do site, e salvar todos os itens do site em seu disco!

Alguns sites utilizam o arquivo "robots.txt", utilizados pelos buscadores e que tentam impedir que o conteúdo principal do site, que às vezes é exatamente o que lhe interessa, seja baixado por algum processo automático.

Mas nosso amigo wget sabe disso, e com o parâmetro correto, você conseguirá proceder com a automatização do download do conteúdo desejado:

wget -r -erobots=off -A ".gif" http://www.endereço_do_site (imagens gif)
wget -r -erobots=off -A ".jpg" http://www.endereço_do_site (imagens jpg)
wget -r -erobots=off -A ".pdf" http://www.endereço_do_site (documentos PDF)
wget -r -erobots=off -A ".swf" http://www.endereço_do_site (animações ou jogos em flash)

- Outros parâmetros úteis do wget (básico)

Continuar um download interrompido:

wget -c http://www.endereço_do_site/video.rmvb

Baixa apenas o tipo de arquivo que interessa no site (".php", ".asp", bem como algumas outras extensões, são convertidas para ".html" pelo próprio wget. Ou seja, ele não deixa escapar nada!)

wget -r -A ".gif" http://www.endereço_do_site
wget -r -A ".html" http://www.endereço_do_site
wget - r-A ".pdf" http://www.endereço_do_site

Baixa todos os formatos de imagem em 'jpg', 'gif' e 'png':

wget -r -p http://www.endereço_do_site --accept=JPG,jpg,GIF,gif,png,PNG

Baixa o conteúdo protegido por login e senha:

wget ftp://login:senha@ftp.servidor.com

Limita a velocidade do download (Ex.: 100k):

wget --limit-rate=100k http://www.endereço_do_site

Acima, informei apenas alguns comandos que poderiam ser os mais utilizados no processo de automatizar seus downloads.

Uma rápida busca na Net, ou pesquisando o manual do wget, você encontrará muitos outros parâmetros de utilização deste excelente aplicativo.

- Meu resultado:

Encontrei um bom site com alguns milhares de códigos de Game Genie, não só para Snes, mas também para GameBoy, Mega Drive e Nes, que agora fazem parte do meu acervo! :)

Você poderá encontrar este aplicativo para Windows no link abaixo:
(*) No link abaixo, veja o procedimento para executar o wget no MacOS:
Previamente publicado em meu Blog

Outras dicas deste autor

Extraindo imagens de arquivos PDF no Ubuntu via linha de comando

Ubuntu 10.10 - Recebendo arquivos via Bluetooth

Ubuntu - Alterando as Fontes do Terminal

Leitura recomendada

Problemas ao conectar no MSN com o Pidgin

Resolvendo problema de porta paralela no VMWare

Instalando OpenOffice.org 2 no Mandriva 2006.0

GiftedMotion - Crie GIFs facilmente

Firefox: selecionar toda a URL com um clique e a tecla backspace

  

Comentários
[1] Comentário enviado por evaldoavelar em 24/04/2012 - 11:24h

Bacana! Vai para minhas referencias de pesquisa.

[2] Comentário enviado por Miqueloti em 24/04/2012 - 13:14h

Uso muito wget em scripts que necessitam de arquivos existentes em ftp para utilizar como parâmetro para comparação de dados entre arquivos de texto de diversos sistemas que serão inseridos em banco de dados.

Mais nunca li muito sobre os parâmetros deste programa para saber o que mais poderia ser feito com a ferramenta. A dica de baixar conteúdos de sites é simplesmente fantástica!!! Já estou cheio de idéias de como utilizar a ferramenta para concluir alguns downloads que ficarão guardados em minha coleção de arquivos que nunca uso rsrs.

Favoritado!!!

[3] Comentário enviado por removido em 24/04/2012 - 15:12h

É nóis!!!!!!!!!

A opção "-c" permite que um download que por acaso seja interrompido seja continuado.

A opção "-o arquivo" direciona a saída do que acontece da tela para "arquivo".

Melhor se esta última for usada com a opção "-b" que coloca o download em background.

Também dá pra usar login e senha tanto para http quanto ftp.

Se for necessária, a opção "-np" (no parents) deve ser utilizada para não invadir diretórios acima (parents).

====

A outra opção que conheço para xerocar sites inteiros é o HTTRACK / WEBHTTRACK. (com interface em navegador).

O problema é que ele acaba pegando o que tiver junto. Se tiver link tipo Amazon, ele manda ver mesmo!

[4] Comentário enviado por mccaldeira em 04/09/2014 - 14:15h

Obrigado pela dica, valeu brother!!!

[5] Comentário enviado por alvesueliton em 23/01/2015 - 12:08h

Pena não funcionar com o VOL, seria ótimo ter-lo no celular:

wget -r http://www.vivaolinux.com.br
--2015-01-23 11:08:37-- http://www.vivaolinux.com.br/
Resolvendo www.vivaolinux.com.br (www.vivaolinux.com.br)... 162.144.34.3
Conectando-se a www.vivaolinux.com.br (www.vivaolinux.com.br)|162.144.34.3|:80... conectado.
A requisição HTTP foi enviada, aguardando resposta... 403 Forbidden
2015-01-23 11:08:38 ERRO 403: Forbidden...


...Opa! Já achei o que precisava:
sudo zypper in httrack ou http://www.httrack.com/page/2/en/index.html

[6] Comentário enviado por jrteles em 27/04/2015 - 08:08h

Bom dia! Prezado Jonatas,

Parabéns pela informação.

Tem alguma sugestão para a seguinte situação:

Copiar de um site as imagens + preço + descrição de produtos?


Abraço,





Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts