Comando Wget para recuperar web sites
Para usar o wget para clonar sites inteiros localmente com o conteúdo inteiro em HTML:
wget --recursive --no-clobber --page-requisites --html-extension --convert-links -e robots=off -U mozilla LINKDOSITE
Vamos analisar os parâmetros deste comando Wget:
–mirror | Isso torna seu download repetitivo. |
–convert-links | Todos os links serão convertidos para o uso offline adequado.. |
–page-requisites | O seguinte código inclui todos os arquivos necessários como CSS, JS e imagens. |
–no-parent | Garante que todos os diretórios acima da hierarquia não sejam recuperados |
-P documents/websites/ | Garante que todo o conteúdo vá para o nosso diretório específico. |
Comando Wget para localizar links quebrados
Para usar o comando Wget para localizar todos as URLs quebradas que exibam o erro 404 em um site específico, execute:
wget -o wget-log -r -l 5 --spider http://exemplo.com
-o | Reúne a saída em um arquivo para uso posterior. |
-l | Especifica o nível de repetição. |
-r | Torna o download repetido. |
–spider | Define o Wget para o modo aranha. |
Agora podemos investigar o arquivo wget-log para encontrar a lista de links quebrados. Aqui está o comando para fazê-lo:
grep -B 2 '404' wget-log | grep "http" | cut -d " " -f 4 | sort -u
Comando Wget para baixar arquivos numerados
Execute o comando para baixar arquivos numerados:
wget http://example.com/images/{1..50}.jpg