Script que obtém informações disponibilizadas a bots pelos sites
Publicado por Renato Alencar (última atualização em 05/02/2014)
[ Hits: 5.924 ]
O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.
O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/
Uso:
$ ./getrobots.py <URL>
#!/usr/bin/python
# -*- coding: utf-8 -*-
# Baixa o arquivo robots.txt do site dado como parametro
#
# O arquivo robots.txt contem definições para bots que acessam o site
# é usado por exemplo pelo bot de pesquisa do Google.
# É necessario o pacote httplib2 para se conectar
import httplib2
import sys
# Faz a requisição HTTP e obtem o arquivo
def getRobot(site):
# TODO: Criar rotina de validação
client = httplib2.Http()
response = client.request('http://%s/robots.txt' % site)
# Retorna o objeto response
return response
def main():
if len(sys.argv) < 2:
raise Exception, "Use: %s <site>" % sys.argv[0]
r = getRobot(sys.argv[1])
if r[0]['status'] <> '200':
raise Exception, "CODE %s" % r[0]['status']
print r[1]
if __name__ == '__main__':
main()
Conversor de String em Hex para String plana
Nenhum comentário foi encontrado.
Modo Simples de Baixar e Usar o bash-completion
Monitorando o Preço do Bitcoin ou sua Cripto Favorita em Tempo Real com um Widget Flutuante
Adicionar botão "mostrar área de trabalho" no Zorin OS
Como montar um servidor de backup no linux
Trazendo de volta o Serviços em Segundo Plano no Plasma6









