Tur1st4
(usa Deepin)
Enviado em 25/12/2018 - 21:22h
Opa, blz?
Estou criando um Script para fazer o download de arquivos de um site, ele já está quase pronto, consigo baixar os arquivos da minha busca mesmo com varias paginas de proximo.
Ele está estruturado da seguinte forma:
Verifica as pastas para executar e baixar os arquivos.
Uma função para download, onde insiro a 1° pagina
Filtra os arquivos da busca para um .txt
Cria variaveis para a função next
Filtra a 2° pagina para um .txt
Chama a função next com um loop até terminar todos os "proximos" filtrando para um .txt
Filtra as urls onde contem os arquivos para um .txt
Baixa essas urls
Verifica se ñ tem arquivo com a extensão .html.1, se tiver ele renomeia para .html
Filtra o link dos arquivos finais para um .txt
Faz o download dos arquivos finais
Meu problema é que nessa filtragem de arquivos finais, o wget coloca o nome das URLs referente ao ultimo "/" do link
E no site tem URLs com o mesmo nome, mas em diretórios diferentes.
Como por exemplo:
www.exemplo.com/2014/07/quasela.html
www.exemplo.com/2015/08/quasela.html
Com isso o wget gera uma mensagem semelhante a essa: "Esse arquivo já está baixado"
Pelo que vi, preciso de algo que baixe as URLs da lista, mas com nomes definidos por mim...
Só que estou bugado de como chegar nessa solução :/ já que o 'wget -i lista.txt -O nomedoarquivo' ñ coloca tipo, nomedoarquivo1, ...2 .-. ele vai sobrescrevendo os arquivos ksks e no final fica somente 1 ;-;
Se alguém conseguiu entender doq preciso, me ajude a chegar em uma solução...
Obs: eu estou bugado no max agr, então o texto tbm vai estar ._.