Download de arquivos

1. Download de arquivos

pylm
(usa Gentoo)

Enviado em 27/04/2020 - 23:52h

Nesse link tem uma série de arquivos zip:

http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/

Como eu poderia fazer para realizar o download deles?

0 0

Quote

2. Re: Download de arquivos

Kaliglitcher
(usa Kali)

Enviado em 28/04/2020 - 01:02h

para baixar use wget link && wget link e assim vai se quiser seleciona onde vai salvar use wget link -O diretorio
para descompactar
unzip *.zip
vc tem q tar na pasta pelo terminal
se quiser fazer isso ccom interface va na pasta sem o terminal e selecione o primeiro segure alt e selecione o ultimo
espero q ajude
nesse caso use esse codigo
sudo wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2010.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2011.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2012.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2013.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2014.zip &&
wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2015.zip &&
wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2016.zip &&
wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2017.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2018.zip && wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_2019.zip
para descompactar
sudo unzip *.zip
confirme os downloads

0 0

Quote

3. Re: Download de arquivos

pylm
(usa Gentoo)

Enviado em 28/04/2020 - 01:53h

... a gente tá no comunidade python.

Acabei fazendo o seguinte:



#!/usr/bin/env python3

# -*- coding: utf-8 -*-



from lxml import html

import requests



bpa_url = 'http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/'

bpa_page = requests.get(bpa_url)

bpa_html = html.fromstring(bpa_page.content)



# Itera sobre todos os links da página, seleciona os que possuem '.zip', baixa e salva num arquivo em disco 

for i in bpa_html.xpath('//a/@href'):

    if '.zip' in i:

        with open(i, 'wb') as bpa:

            bpa_file = requests.get(f'{bpa_url}/{i}')

            bpa.write(bpa_file.content)

0 0

Quote

4. Re: Download de arquivos

ricardogroetaers
(usa Linux Mint)

Enviado em 28/04/2020 - 01:59h

pylm escreveu: ... Como eu poderia fazer para realizar o download deles?

Pode fazer com o navegador web, clicando em cada arquivo. Afinal não são muitos arquivos.

Opcionalmente, como o nome dos arquivos tem uma sequencia numérica lógica, podemos usar o comando "wget", assim:
wget http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/bpa_cia_aberta_{2010..2019}.zip
Os arquivos .zip serão baixados para a pasta na qual estamos posicionados no terminal.

1 0

Quote

5. Re: Download de arquivos

fabio
(usa Debian)

Enviado em 28/04/2020 - 02:13h

Acredito que o pylm queira fazer essa operação usando Python. Rabisquei um código aqui, ficou meio grande mas acredito estar simples de se entender:



from bs4 import BeautifulSoup

import requests



url = "http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/BPA/DADOS/"

r  = requests.get(url)

soup = BeautifulSoup(r.text, "html.parser")



#filtrar os links da pagina

for link in soup.find_all('a'):



    filename = link.get('href')



    #filtrar apenas extensao zip

    if 'zip' in filename:



        #construir a url completa

        source = url + filename



        #baixar o arquivo

        r2 = requests.get(source)



        #gravar o arquivo

        open(filename, 'wb').write(r2.content)

        

        print(filename + ' salvo')