Como baixar sites completos com WGet ( ignorando robots.txt) - Diolinux - O modo Linux e Open Source de ver o Mundo

Responsive Ad Slot

Como baixar sites completos com WGet ( ignorando robots.txt)

Baixe todo o conteúdo dos sites, mesmo os que eles não querem que você baixe.

terça-feira, 20 de novembro de 2012

/ por Dionatan Simioni

Robots.txt não são um problema

O WGET é um utilitário de download que acompanha a maioria das distribuições Linux, Ubuntu e Mint inclusive. Existem muitos parâmetros para ele, mas hoje vamos nos focar a mostrar como baixar sites inteiros para o seu computador para que você possa acessá-lo offline.
Um fato curioso deste método é que certa  vez Richard Stallman, pai do projeto GNU e que estará no 9º Fórum Goiano de Software livre nos dias 30 e 1º deste mês e do próximo, disse que não usava a internet online, ou seja, ele não acessava as páginas nos servidores, ele baixava o conteúdo que desejava ver para não ser rastreado. Mais uma das peculiaridades de Mr. Stallmam.
 
Tux olhando para baixo

Como baixar um site usando o WGET

Basicamente qualquer site pode ser baixado usando o modelo

wget www.nomedosite.com.br
Se você quiser definir qual pasta você quiser salvar faça assim, colocando o diretório no final:

wget www.nomedosite.com.br /home/usuario/Downloads 
Ok, mas vamos mais além, graças a um arquivo chamado Robots.txt os webmasters, se é que podemos usar esta palavra ainda, podem definir qual o conteudo será acessado pelos visitantes ou indexado pelos motores de busca como o Google.
Este recurso é útil quando você tiver informações no site que não podem ser abertas a qualquer um, como é o caso de bancos por exemplo. Mas esta não é uma estratégia muito segura o ideal é criptografar tudo além de proteger com o arquivo robots.txt.

Se  você usar o comando:

wget -r -erobots=off www.nomedosite.com.br
Você conseguirá baixar todo o conteúdo do site independentemente das limitações impostas no robots.txt.
Bom senso é válido aqui, não vá querer dar uma cracker ( lammer ) e baixar coisas de um site privado ( sei que você deve estar coçando os dedos ), mas porque não? 
Crime realmente não é, você pode baixar qualquer página da internet para o seu computador, salvo raras exceções, mas ao ignorar a configuração dos robots você irá baixar muito material para o seu HD, vai lotá-lo de porcaria mesmo. Para se ter uma ideia estava eu visitando as ferramentas para webmasters do Google e descobri que todo conteúdo armazenado do Diolinux beira a marca de 1 TB.
Use com sabedoria by Mestre Yoda.
Até a próxima dica.

Quer continuar por dentro de tudo o que acontece por aqui?

Então curta nossa página no FACEBOOK, siga o blog no TWITTER  - Siga também nossos escritores 


Blog Diolinux © all rights reserved
made with by templateszoo