Captura conteúdo pagina php

1. Captura conteúdo pagina php

Erik P. Ghijs
Good_speed

(usa Debian)

Enviado em 16/04/2019 - 12:39h

Amigos, boa tarde

Site: https://linuxmint.com/mirrors.php
<td>http://mirrors.evowise.com/linuxmint/packages/</td>

Como posso capturar o conteúdo que esta envolvido na tag <td> </td> que baixe o arquivo mirror.php, e depois copiar somente os links "http://" para um arquivo texto?

Obrigado,


  


2. Re: Captura conteúdo pagina php

Renato Carneiro Pacheco
renato_pacheco

(usa Debian)

Enviado em 16/04/2019 - 15:44h

Primeiro q não tem como baixar o "mirror.php", pois o servidor sempre vai interpretar o q tá dentro dele e vai te entregar apenas o código HTML, mas se vc quiser fazer filtro pra buscar os mirrors disponíveis na página, basta olhar o código-fonte da página, observar onde q se encontra as URLs dos mirrors e fazer um script com o curl pra buscar essas informações e jogar dentro de um arquivo. Não sei pra qual finalidade vc quer isso, mas se for pra fazer mirroring local, eu sugiro q vc utilize o apt-cacher-ng, q vai ser beeeeem mais útil.

--
http://br.linkedin.com/in/renatocarneirop
http://www.facebook.com/renatocarneirop

"Não acredite no que eu digo, pois é a minha experiência e não a sua. Experimente, indague e busque." - Osho Rajneesh


3. Re: Captura conteúdo pagina php

Erik P. Ghijs
Good_speed

(usa Debian)

Enviado em 16/04/2019 - 17:19h

renato_pacheco escreveu:

Primeiro q não tem como baixar o "mirror.php", pois o servidor sempre vai interpretar o q tá dentro dele e vai te entregar apenas o código HTML, mas se vc quiser fazer filtro pra buscar os mirrors disponíveis na página, basta olhar o código-fonte da página, observar onde q se encontra as URLs dos mirrors e fazer um script com o curl pra buscar essas informações e jogar dentro de um arquivo. Não sei pra qual finalidade vc quer isso, mas se for pra fazer mirroring local, eu sugiro q vc utilize o apt-cacher-ng, q vai ser beeeeem mais útil.

--
http://br.linkedin.com/in/renatocarneirop
http://www.facebook.com/renatocarneirop

"Não acredite no que eu digo, pois é a minha experiência e não a sua. Experimente, indague e busque." - Osho Rajneesh


Renato, boa tarde

Obrigado pela sua resposta, aqui estou conseguindo baixar o mirror.php utilizando só o comando wget https://linuxmint.com/mirrors.php, estou montando um mirror local, mais também quero automatizar todo o processo, ou seja, o servidor master, vai calcular qual o melhor mirror baseado na velocidade download e não pela latência "ping", nao gostei dos teste que realizei aqui com apt-cacher-ng.

Atenciosamente,






4. Re: Captura conteúdo pagina php

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 16/04/2019 - 19:27h


Good_speed escreveu:

Amigos, boa tarde

Site: https://linuxmint.com/mirrors.php
<td>http://mirrors.evowise.com/linuxmint/packages/</td>

Como posso capturar o conteúdo que esta envolvido na tag <td> </td> que baixe o arquivo mirror.php, e depois copiar somente os links "http://" para um arquivo texto?

Obrigado,

Boa noite.
Com o comando:
lynx -dump http://mirrors.evowise.com/linuxmint/packages/dists/|awk">http://mirrors.evowise.com/linuxmint/packages/dists/|awk '/^[ ]+[0-9]+\./ {print $2}' > saida.txt 

Você tem no arquivo "saida.txt", todos os links.
http://mirrors.evowise.com/linuxmint/packages/dists/betsy/">http://mirrors.evowise.com/linuxmint/packages/dists/betsy/
http://mirrors.evowise.com/linuxmint/packages/dists/cindy/">http://mirrors.evowise.com/linuxmint/packages/dists/cindy/
http://mirrors.evowise.com/linuxmint/packages/dists/debian/">http://mirrors.evowise.com/linuxmint/packages/dists/debian/
...
Visto que, boa parte do link é "fixa":
http://mirrors.evowise.com/linuxmint/packages/dists/
Com o comando:
sed 's|http://mirrors.evowise.com/linuxmint/packages/dists||' saida.txt |sed '1d' 

São obtidas as distribuições.
/betsy/
/cindy/
/debian/
/elyssa/
...
Importante, esta no VOL: echo -e "$(lynx --dump goo.gl/a9KeFc|sed -nr '/^[ ]+Se/,/dou.$/p')"
Att.: Marcelo Oliver






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts