Olá Pessoal,
neste final de semana assisti o filme “A Rede Social” que diz ser a história do facebook e fique curioso pra testar o que o personagem de Mark Zuckerberg, criador do facebook, fez com o aplicativo linux wget, assim encontrei um help traduzido para o português e resolvi compartilhá-lho aqui:
————————————————————————————————————-
Download – wget – excelente opção para download no linux
detalhes:
Nome do Programa: wget
categoria – gerênciador de download
site: http://www.gnu.org/software/wget/wget.html
interface: inglês
Tipo: GPL
formato: .tar.gz
descrição: O wget é um utilitário para cópia de arquivos da web.O Download se faz por HTTP ou FTP, incluindo o ftp anônimo. Permite busca recursiva, podendo buscar toda uma árvore de ftp, ou um site da WWW.
download: http://www.gnu.org/software/wget/index.html#downloading
Obs: Praticamente todas distros já possuem o wget, mas caso não tenha segue procedimento abaixo:
instalação: descompacte o arquivo com o comando:
$ tar -xvjf wget-X.xx.x.tar.gz
depois entre no diretório do programa e digite:
$ ./configure && make
$ su
# make install
wget: Man Page Traduzida
Colaboração: Felipe Machado Cardoso []
GNU Wget 1.5.3.1, um recuperador não interativo de rede.
Uso: WGET [OPCAO]… [URL]…
Argumentos exigidos para opções longas são exigidos para opções curtas também.
Inicialização:
-V, –version exibe informação de versão do Wget e sai.
-h, –help imprime esse help.
-b, –background executa em segundo plano.
-e, –execute=COMMAND executa um comando `.wgetrc’.
Logging e arquivo de entrada:
-o, –output-file=FILE loga a saída em FILE.
-a, –append-output=FILE acrescenta saída em FILE.
-d, –debug exibe informações de debug.
-q, –quiet quieto (sem saída).
-v, –verbose ser detalhista na saída (padrão).
-nv, –non-verbose não ser nem detalhista nem ‘quieto’.
-i, –input-file=FILE ler URL-s de entrada a partir de FILE.
-F, –force-html tratar entrada como HTML.
Download:
-t, –tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado).
-O –output-document=FILE gravar documento como FILE.
-nc, –no-clobber don’t clobber existing files.
-c, –continue continuar arquivo existente.
–dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve).
-N, –timestamping não recuperar arquivos remotos mais antigos que os locais.
-S, –server-response exibir as respostas do servidor.
–spider não baixar (download) nada.
-T, –timeout=SECONDS ajusta o tempo de expiração para SECONDS.
-w, –wait=SECONDS aguarda SECONDS entre retentativas.
-Y, –proxy=on/off torna o proxy ligado/desligado.
-Q, –quota=NUMBER ajusta a cota de recuperação para NUMBER.
Diretórios:
-nd –no-directories não criar diretorios.
-x, –force-directories força criação de diretorios.
-nH, –no-host-directories não criar diretorio do hospedeiro (host).
-P, –directory-prefix=PREFIX salvar arquivos em PREFIX/…
–cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos.
Opções HTTP:
–http-user=USER ajustar usuário http para USER.
–http-passwd=PASS ajustar senha http para PASS.
-C, –cache=on/off permite/inibe dados de cache do servidor (normalmente
permitido).
–ignore-length ignorar campo de cabeçalho `Content-Length’.
–header=STRING inserir STRING entre o cabeçalho.
–proxy-user=USER ajusta USER como usuario proxy.
–proxy-passwd=PASS ajusta PASS como senha proxy.
-s, –save-headers salvar cabeçalhos HTTP para arquivo.
-U, –user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION.
Opções FTP:
–retr-symlinks recuperar links simbólicos do FTP.
-g, –glob=on/off turn file name globbing on or off.
–passive-ftp usar modo de transferência “passivo”.
Recuperação recursiva:
-r, –recursive chupador-web recursivo — use com cuidado!.
-l, –level=NUMBER nível máximo de profundidade (0=ilimitado).
–delete-after excluir arquivos após baixar.
-k, –convert-links converter links não relativos para relativos.
-m, –mirror ligar opções apropriadas para espelhamento.
-nr, –dont-remove-listing não remover arquivos `.listing’.
Opções de aceitação/rejeição recursivas:
-A, –accept=LIST lista de extensões aceitas.
-R, –reject=LIST lista de extensões rejeitadas.
-D, –domains=LIST lista de domínios aceitos.
–exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados.
-L, –relative seguir apenas links relativos.
–follow-ftp seguir links FTP a partir de documentos HTML.
-H, –span-hosts ir para hospedeiros estrangeiros quando em modo
recursivo.
-I, –include-directories=LIST lista de diretórios permitidos.
-X, –exclude-directories=LIST lista de diretórios excluídos.
-nh, –no-host-lookup não faça a procura de DNS.
-np, –no-parent não subir para diretórios pais.
——- Notas do tradutor ——–
Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar na tradução, inclui abaixo uma tabela de alguns termos e como os traduzi.
Retrieve – recuperação
Foreing – estrangeiro
Host – hospedeiro
DNS-Lookup – procura de DNS
Parent directories – diretórios pai
Append – acrescentar
Tradução: Felipe Machado Cardoso
——————————————
Fonte: http://www.linuxnarede.com.br/artigos/fullnews.php?id=69
————————————————————————————————————-
Dicas
Download seletivo de arquivos com wget
Colaboração: Gentil de Bortoli Júnior <>
Algumas pessoas têm necessidade de fazer o download de apenas determinados tipos de arquivos como, por exemplo, PDFs ou imagens.
Isso pode ser feito de maneira muito simples, utilizando o wget. Uma pessoa que deseja baixar todos os PDFs do endereço http://ldp.conectiva.com.br pode fazer algo como:
$ mkdir LDP_PDFs ; cd LDP_PDFs
$ wget -A .pdf -r -nd http://ldp.conectiva.com.br
Explicando:
-A -> Baixe somente os arquivos com a extensão fornecida.
-r -> Siga os links recursivamente
-nd -> Não crie hierarquia de diretórios.
outra dica: ignorar os robots.txt que fazem com
o que o wget “desista” de entrar em alguns lados:
wget -e robots=0 -r -nd …
Mudando a identificação do wget para o servidor
wget -t 7 -w 5 –waitretry=14 –random-wait –user-agent=”Mozilla/5.0
(Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111
Firefox/1.5.0.1″ -m -k -K -e robots=off
Como resultado desse comando, dentro do diretório LDP_PDFs você terá todos os PDFs que podem ser encontrados seguindo os links no site em questão.
Man page traduzida
GNU Wget 1.5.3.1, um recuperador não interativo de rede. Uso: WGET [OPCAO]... [URL]... Argumentos exigidos para opções longas são exigidos para opções curtas também. Inicialização: -V, --version exibe informação de versão do Wget e sai. -h, --help imprime esse help. -b, --background executa em segundo plano. -e, --execute=COMMAND executa um comando `.wgetrc'. Logging e arquivo de entrada: -o, --output-file=FILE loga a saída em FILE. -a, --append-output=FILE acrescenta saída em FILE. -d, --debug exibe informações de debug. -q, --quiet quieto (sem saída). -v, --verbose ser detalhista na saída (padrão). -nv, --non-verbose não ser nem detalhista nem 'quieto'. -i, --input-file=FILE ler URL-s de entrada a partir de FILE. -F, --force-html tratar entrada como HTML. Download: -t, --tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado). -O --output-document=FILE gravar documento como FILE. -nc, --no-clobber don't clobber existing files. -c, --continue continuar arquivo existente. --dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve). -N, --timestamping não recuperar arquivos remotos mais antigos que os locais. -S, --server-response exibir as respostas do servidor. --spider não baixar (download) nada. -T, --timeout=SECONDS ajusta o tempo de expiração para SECONDS. -w, --wait=SECONDS aguarda SECONDS entre retentativas. -Y, --proxy=on/off torna o proxy ligado/desligado. -Q, --quota=NUMBER ajusta a cota de recuperação para NUMBER. Diretórios: -nd --no-directories não criar diretorios. -x, --force-directories força criação de diretorios. -nH, --no-host-directories não criar diretorio do hospedeiro (host). -P, --directory-prefix=PREFIX salvar arquivos em PREFIX/... --cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos. Opções HTTP: --http-user=USER ajustar usuário http para USER. --http-passwd=PASS ajustar senha http para PASS. -C, --cache=on/off permite/inibe dados de cache do servidor (normalmente permitido). --ignore-length ignorar campo de cabeçalho `Content-Length'. --header=STRING inserir STRING entre o cabeçalho. --proxy-user=USER ajusta USER como usuario proxy. --proxy-passwd=PASS ajusta PASS como senha proxy. -s, --save-headers salvar cabeçalhos HTTP para arquivo. -U, --user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION. Opções FTP: --retr-symlinks recuperar links simbólicos do FTP. -g, --glob=on/off turn file name globbing on or off. --passive-ftp usar modo de transferência "passivo". Recuperação recursiva: -r, --recursive chupador-web recursivo -- use com cuidado!. -l, --level=NUMBER nível máximo de profundidade (0=ilimitado). --delete-after excluir arquivos após baixar. -k, --convert-links converter links não relativos para relativos. -m, --mirror ligar opções apropriadas para espelhamento. -nr, --dont-remove-listing não remover arquivos `.listing'. Opções de aceitação/rejeição recursivas: -A, --accept=LIST lista de extensões aceitas. -R, --reject=LIST lista de extensões rejeitadas. -D, --domains=LIST lista de domínios aceitos. --exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados. -L, --relative seguir apenas links relativos. --follow-ftp seguir links FTP a partir de documentos HTML. -H, --span-hosts ir para hospedeiros estrangeiros quando em modo recursivo. -I, --include-directories=LIST lista de diretórios permitidos. -X, --exclude-directories=LIST lista de diretórios excluídos. -nh, --no-host-lookup não faça a procura de DNS. -np, --no-parent não subir para diretórios pais. Envie relatórios de erros ee sugestões para <bug-wget@gnu.org>. ------- Notas do tradutor -------- Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar na tradução, inclui abaixo uma tabela de alguns termos e como os trabuzi. Retrieve - recuperação Foreing - estrangeiro Host - hospedeiro DNS-Lookup - procura de DNS Parent directories - diretórios pai Append - acrescentar Tradução: Felipe Machado Cardoso <felipemc@faesa.br>
Quando usar o download recursivo tente a opção
–level=profundidade
Onde “profundidade” é até que ponto o wget desca na árvore do site a ser baixado
veja também
————————————————————————————————————-
Fonte: http://sergioaraujo.pbworks.com/w/page/15864100/wget
Super feramenta, lembro de ter usado para baixar uma .iso linux por ele.