É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

1. É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Tur1st4
Tur1st4

(usa Deepin)

Enviado em 20/01/2019 - 20:45h

Opa, blz?

Antes peço desculpas por erros em falar sobre html, mas sou noob nessa linguagem até em Shell mas vamos lá ksks :v

Bem, começando do começo ksks
Estou criando um script para baixar vários arquivos sem precisar acessar cada página para baixar.
Mas essa pagina tem um "sistema" (não sei se é assim que se refere) de rolar o scroll e ela carrega outros elementos. Tipo o Youtube, quando vai rolando a página ele carrega outras sugestões.

Quando baixo pelo wget e manipulo o texto, só mostra os 30 elementos inciais da pagina... Os próximos que ainda vão ser carregados ele não mostra.
Fui em inspecionar elemento do Firefox, ele deixa os elementos a serem carregados em uma cor cinza no código, mas depois que carrega continua cinza. (Não sei se é uma informação útil mas vai que serve).
Agora se faço o mesmo no Chrome, ele mostra todos os elementos depois que rolo a pagina até o final .-.

E essa parte cinza não aparece no arquivo baixado pelo wget. (claro já que na manipulação do texto não mostrou)

Então as minhas perguntas são: Tem algum jeito de baixar a pagina com todos os "conteúdos ocultos"?
Ou tem como copiar os elementos do próprio inspecionar do google chrome? Tipo um Ctrl + A ; Ctrl + C .-. Testei mas não foi huehue


  


2. MELHOR RESPOSTA

Matheus
pylm

(usa Gentoo)

Enviado em 07/03/2019 - 17:17h

Se você manjar de python então tem bastante material.

https://pythonhelp.wordpress.com/2016/10/22/extraindo-dados-de-paginas-baseadas-em-javascript-com-sc...


3. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a pági

Paulo
paulo1205

(usa Ubuntu)

Enviado em 21/01/2019 - 09:32h

Se a página faz isso por meio de código em Javascript, você teria de interpretar esse código para saber como carregar os elementos que não estavam no conteúdo originalmente baixado.

Existem vários headless browsers (“navegadores” que executam sem necessariamente ter um usuário a guiá-lo através de uma tela), incluindo o Firefox e o Chrome operando em modo headless. Você teria de montar um script que faça com que o navegador desassistido faça o procedimento equivalente ao que o usuário teria de fazer para rolar a página.

Eu não tenho detalhes de como isso funciona, pois nunca usei tal recurso, e é provável que cada ferramenta headless tenha suas próprias características, que a tornem mais ou menos adequadas ao que você deseja. Você teria de testar.


... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)


4. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Paulo
paulo1205

(usa Ubuntu)

Enviado em 21/01/2019 - 10:08h

Pesquisando no Google por “simulate scrolling with a headless browser”, você vai receber vários links com exemplos prontos, que você poderá adaptar. Aparentemente, as ferramentas mais populares (a julgar pelos cinco primeiros links, que eu visitei) são o PhantomJS e o Google Chrome (com auxílio de outros, como Python e Node.js).

Como só você sabe o que quer e o que lhe atende melhor, recomendo que faça seus testes com base no caminho apontado.


... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)


5. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Tur1st4
Tur1st4

(usa Deepin)

Enviado em 07/03/2019 - 15:48h

paulo1205 escreveu:

Se a página faz isso por meio de código em Javascript, você teria de interpretar esse código para saber como carregar os elementos que não estavam no conteúdo originalmente baixado.

Existem vários headless browsers (“navegadores” que executam sem necessariamente ter um usuário a guiá-lo através de uma tela), incluindo o Firefox e o Chrome operando em modo headless. Você teria de montar um script que faça com que o navegador desassistido faça o procedimento equivalente ao que o usuário teria de fazer para rolar a página.

Eu não tenho detalhes de como isso funciona, pois nunca usei tal recurso, e é provável que cada ferramenta headless tenha suas próprias características, que a tornem mais ou menos adequadas ao que você deseja. Você teria de testar.


... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)


Tentei de todos os jeitos, mas não achei como fazer isso... A "solução" foi abrir cada página e copiar a URL, depois fiz o script para baixar os arquivos que contém neles...
Como não sei nada de JS não consegui achar a solução. Já que como você disse, teria que simular o scroll, só que como eu pegaria as novas informações... Já que um wget baixaria somente o inicial.

Mas obrigado pela ajuda!



6. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 07/03/2019 - 17:04h


Tur1st4 escreveu:

Opa, blz?

Antes peço desculpas por erros em falar sobre html, mas sou noob nessa linguagem até em Shell mas vamos lá ksks :v

Bem, começando do começo ksks
Estou criando um script para baixar vários arquivos sem precisar acessar cada página para baixar.
Mas essa pagina tem um "sistema" (não sei se é assim que se refere) de rolar o scroll e ela carrega outros elementos. Tipo o Youtube, quando vai rolando a página ele carrega outras sugestões.

Quando baixo pelo wget e manipulo o texto, só mostra os 30 elementos inciais da pagina... Os próximos que ainda vão ser carregados ele não mostra.
Fui em inspecionar elemento do Firefox, ele deixa os elementos a serem carregados em uma cor cinza no código, mas depois que carrega continua cinza. (Não sei se é uma informação útil mas vai que serve).
Agora se faço o mesmo no Chrome, ele mostra todos os elementos depois que rolo a pagina até o final .-.

E essa parte cinza não aparece no arquivo baixado pelo wget. (claro já que na manipulação do texto não mostrou)

Então as minhas perguntas são: Tem algum jeito de baixar a pagina com todos os "conteúdos ocultos"?
Ou tem como copiar os elementos do próprio inspecionar do google chrome? Tipo um Ctrl + A ; Ctrl + C .-. Testei mas não foi huehue


Boa tarde Turista.
Pode ser que de para "pegar" os links no "código fonte" da página....
Se possível, poste a url e indique o que quer "pegar"

no aguardo.
marcelo oliver






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts