Como copiar um site inteiro com apenas um comando?

Migre para a melhor hospedagem para sites!
59 / 100

Você precisa copiar um site inteiro? Já pensou em usar o velho e bom wget? No Linux o wget é padrão na maioria das Distros, no windows precisa instalar por fora.

Com o wget instalado, digite na linha de comando os parâmetros do Wget:

Baixe um site com wget
Abra uma janela do Terminal (ou um Shell no Linux) e vá para o diretório onde deseja armazenar o site baixado. Em seguida, execute o seguinte comando para baixar o site recursivamente:

wget -r --no-parent http://www.siteparadownload.com

Isso fará o download das páginas sem alterar o código-fonte HTML.

Quando você quiser alterar os links nas páginas automaticamente para apontar para os arquivos baixados, use este comando:

wget -r --convert-links --no-parent http://www.siteparadownload.com

Quando todos os arquivos HTML tiverem a extensão .html, adicione a opção “–html-extension”.

wget -r --convert-links --html-extension --no-parent http://www.siteparadownload.com

Para baixar um site e colocar ele em .html apontado pros arquivos, use esse comando:

wget --recursive --no-clobber --page-requisites --html-extension --convert-links -e robots=off -U mozilla http://www.siteparadownload.com

Explicação das várias bandeiras:

--mirror – Torna (entre outras coisas) o download recursivo.
--convert-links – converte todos os links (também para coisas como folhas de estilo CSS) para relativo, para que seja adequado para visualização offline.
-adjust-extension – Adiciona extensões adequadas aos nomes dos arquivos (html ou css) dependendo do tipo de conteúdo.
--page-requisites – Baixe coisas como folhas de estilo CSS e imagens necessárias para exibir corretamente a página offline.
--no-parent – Ao ser recorrente, não sobe para o diretório pai. É útil para restringir o download a apenas uma parte do site
--user-agent=Mozilla

Comando extra:

wget --wait=2 \
--level=inf \
--limit-rate=20K \
--recursive \
--page-requisites \
--user-agent=Mozilla \
--no-parent \
--convert-links \
--adjust-extension \
--no-clobber \
-e robots=off \
https://exemplo.com
wget --wait=2 --level=inf --limit-rate=20K --recursive --page-requisites --user-agent=Mozilla --no-parent --convert-links --adjust-extension --no-clobber -e robots=off https://exemplo.com

O wget é um utilitário de linha de comando para baixar arquivos da internet. Alguns comandos resumidos do wget são:

– Baixar um arquivo: `wget URL`

– Baixar um arquivo e salvá-lo com outro nome: `wget -O nome-do-arquivo URL`

– Continuar um download interrompido: `wget -c URL`

– Baixar vários arquivos de uma vez: `wget URL1 URL2 URL3`

– Baixar um arquivo usando um proxy: `wget –proxy-user=USUARIO –proxy-password=SENHA URL`

– Limitar a velocidade de download: `wget –limit-rate=VEL-EM-KBPS URL`

– Ignorar certificados SSL inválidos: `wget –no-check-certificate URL`

wget -r -k -E -p -np --no-clobber --page-requisites --html-extension --convert-links --no-check-certificate -e robots=off -U mozilla URLDOSITE

Fonte: https://www.gnu.org/software/wget/manual/html_node/Download-Options.html

Assinar nossa Newsletter

* indicates required

Baixe grátis o E-book "Web Sites Que Funcionam" e Crie Sites Incríveis Hoje

Criação de Site em Belém por uma empresa Profissional

Hospedagem de Site Premium em Belém com Nota Fiscal automática

Postagens em alta

Postagens relacionadas