Olá Pessoal,

neste final de semana assisti o filme “A Rede Social” que diz ser a história do facebook e fique curioso pra testar o que o personagem de Mark Zuckerberg, criador do facebook, fez com o aplicativo linux wget, assim encontrei um help traduzido para o português e resolvi compartilhá-lho aqui:

————————————————————————————————————-

Download – wget – excelente opção para download no linux

detalhes:


Nome do Programa: wget
categoria – gerênciador de download
site: http://www.gnu.org/software/wget/wget.html
interface: inglês
Tipo: GPL
formato: .tar.gz
descrição: O wget é um utilitário para cópia de arquivos da web.O Download se faz por HTTP ou FTP, incluindo o ftp anônimo. Permite busca recursiva, podendo buscar toda uma árvore de ftp, ou um site da WWW. 

download: http://www.gnu.org/software/wget/index.html#downloading
Obs: Praticamente todas distros já possuem o wget, mas caso não tenha segue procedimento abaixo:

instalação: descompacte o arquivo com o comando:

$ tar -xvjf wget-X.xx.x.tar.gz

depois entre no diretório do programa e digite:

$ ./configure && make
$ su
# make install

wget: Man Page Traduzida

Colaboração: Felipe Machado Cardoso []

GNU Wget 1.5.3.1, um recuperador não interativo de rede.
Uso: WGET [OPCAO]… [URL]…

Argumentos exigidos para opções longas são exigidos para opções curtas também.

Inicialização:
-V, –version exibe informação de versão do Wget e sai.
-h, –help imprime esse help.
-b, –background executa em segundo plano.
-e, –execute=COMMAND executa um comando `.wgetrc’.

Logging e arquivo de entrada:
-o, –output-file=FILE loga a saída em FILE.
-a, –append-output=FILE acrescenta saída em FILE.
-d, –debug exibe informações de debug.
-q, –quiet quieto (sem saída).
-v, –verbose ser detalhista na saída (padrão).
-nv, –non-verbose não ser nem detalhista nem ‘quieto’.
-i, –input-file=FILE ler URL-s de entrada a partir de FILE.
-F, –force-html tratar entrada como HTML.

Download:
-t, –tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado).
-O –output-document=FILE gravar documento como FILE.
-nc, –no-clobber don’t clobber existing files.
-c, –continue continuar arquivo existente.
–dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve).
-N, –timestamping não recuperar arquivos remotos mais antigos que os locais.
-S, –server-response exibir as respostas do servidor.
–spider não baixar (download) nada.
-T, –timeout=SECONDS ajusta o tempo de expiração para SECONDS.
-w, –wait=SECONDS aguarda SECONDS entre retentativas.
-Y, –proxy=on/off torna o proxy ligado/desligado.
-Q, –quota=NUMBER ajusta a cota de recuperação para NUMBER.

Diretórios:
-nd –no-directories não criar diretorios.
-x, –force-directories força criação de diretorios.
-nH, –no-host-directories não criar diretorio do hospedeiro (host).
-P, –directory-prefix=PREFIX salvar arquivos em PREFIX/…
–cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos.

Opções HTTP:
–http-user=USER ajustar usuário http para USER.
–http-passwd=PASS ajustar senha http para PASS.
-C, –cache=on/off permite/inibe dados de cache do servidor (normalmente
permitido).
–ignore-length ignorar campo de cabeçalho `Content-Length’.
–header=STRING inserir STRING entre o cabeçalho.
–proxy-user=USER ajusta USER como usuario proxy.
–proxy-passwd=PASS ajusta PASS como senha proxy.
-s, –save-headers salvar cabeçalhos HTTP para arquivo.
-U, –user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION.

Opções FTP:
–retr-symlinks recuperar links simbólicos do FTP.
-g, –glob=on/off turn file name globbing on or off.
–passive-ftp usar modo de transferência “passivo”.

Recuperação recursiva:
-r, –recursive chupador-web recursivo — use com cuidado!.
-l, –level=NUMBER nível máximo de profundidade (0=ilimitado).
–delete-after excluir arquivos após baixar.
-k, –convert-links converter links não relativos para relativos.
-m, –mirror ligar opções apropriadas para espelhamento.
-nr, –dont-remove-listing não remover arquivos `.listing’.

Opções de aceitação/rejeição recursivas:
-A, –accept=LIST lista de extensões aceitas.
-R, –reject=LIST lista de extensões rejeitadas.
-D, –domains=LIST lista de domínios aceitos.
–exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados.
-L, –relative seguir apenas links relativos.
–follow-ftp seguir links FTP a partir de documentos HTML.
-H, –span-hosts ir para hospedeiros estrangeiros quando em modo
recursivo.
-I, –include-directories=LIST lista de diretórios permitidos.
-X, –exclude-directories=LIST lista de diretórios excluídos.
-nh, –no-host-lookup não faça a procura de DNS.
-np, –no-parent não subir para diretórios pais.

——- Notas do tradutor ——–
Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar na tradução, inclui abaixo uma tabela de alguns termos e como os traduzi.

Retrieve – recuperação
Foreing – estrangeiro
Host – hospedeiro
DNS-Lookup – procura de DNS
Parent directories – diretórios pai
Append – acrescentar

Tradução: Felipe Machado Cardoso

——————————————

Fonte: http://www.linuxnarede.com.br/artigos/fullnews.php?id=69

 

————————————————————————————————————-

 

Dicas

Download seletivo de arquivos com wget

Colaboração: Gentil de Bortoli Júnior <>

Algumas pessoas têm necessidade de fazer o download de apenas determinados tipos de arquivos como, por exemplo, PDFs ou imagens.

Isso pode ser feito de maneira muito simples, utilizando o wget. Uma pessoa que deseja baixar todos os PDFs do endereço http://ldp.conectiva.com.br pode fazer algo como:

 

$ mkdir LDP_PDFs ; cd LDP_PDFs

$ wget -A .pdf -r -nd http://ldp.conectiva.com.br

 

Explicando:

-A -> Baixe somente os arquivos com a extensão fornecida.

-r -> Siga os links recursivamente

-nd -> Não crie hierarquia de diretórios.

 

outra dica: ignorar os robots.txt que fazem com

o que o wget “desista” de entrar em alguns lados:

wget -e robots=0 -r -nd …

 

Mudando a identificação do wget para o servidor

wget -t 7 -w 5 –waitretry=14 –random-wait –user-agent=”Mozilla/5.0

(Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111

Firefox/1.5.0.1″ -m -k -K -e robots=off

 

Como resultado desse comando, dentro do diretório LDP_PDFs você terá todos os PDFs que podem ser encontrados seguindo os links no site em questão.

 

Man page traduzida

GNU Wget 1.5.3.1, um recuperador não interativo de rede.
  Uso: WGET [OPCAO]... [URL]...

  Argumentos exigidos para opções longas são exigidos para opções curtas também.

  Inicialização:
    -V,  --version           exibe informação de versão do Wget e sai.
    -h,  --help              imprime esse help.
    -b,  --background        executa em segundo plano.
    -e,  --execute=COMMAND   executa um comando `.wgetrc'.

  Logging e arquivo de entrada:
    -o,  --output-file=FILE     loga a saída em FILE.
    -a,  --append-output=FILE   acrescenta saída em FILE.
    -d,  --debug                exibe informações de debug.
    -q,  --quiet                quieto (sem saída).
    -v,  --verbose              ser detalhista na saída (padrão).
    -nv, --non-verbose          não ser nem detalhista nem 'quieto'.
    -i,  --input-file=FILE      ler URL-s de entrada a partir de FILE.
    -F,  --force-html           tratar entrada como HTML.

  Download:
    -t,  --tries=NUMBER           configurar tentativas igual a NUMBER (0=ilimitado).
    -O   --output-document=FILE   gravar documento como FILE.
    -nc, --no-clobber             don't clobber existing files.
    -c,  --continue               continuar arquivo existente.
         --dot-style=STYLE        ajusta estilo de exibição da recuperação (retrieve).
    -N,  --timestamping           não recuperar arquivos remotos mais antigos que os locais.
    -S,  --server-response        exibir as respostas do servidor.
         --spider                 não baixar (download) nada.
    -T,  --timeout=SECONDS        ajusta o tempo de expiração para SECONDS.
    -w,  --wait=SECONDS           aguarda SECONDS entre retentativas.
    -Y,  --proxy=on/off           torna o proxy ligado/desligado.
    -Q,  --quota=NUMBER           ajusta a cota de recuperação para NUMBER.

  Diretórios:
    -nd  --no-directories            não criar diretorios.
    -x,  --force-directories         força criação de diretorios.
    -nH, --no-host-directories       não criar diretorio do hospedeiro (host).
    -P,  --directory-prefix=PREFIX   salvar arquivos em PREFIX/...
         --cut-dirs=NUMBER           ignorar NUMBER componentes de diretorios remotos.

  Opções HTTP:
         --http-user=USER      ajustar usuário http para USER.
         --http-passwd=PASS    ajustar senha http para PASS.
    -C,  --cache=on/off        permite/inibe dados de cache do servidor (normalmente
  permitido).
         --ignore-length       ignorar campo de cabeçalho `Content-Length'.
         --header=STRING       inserir STRING entre o cabeçalho.
         --proxy-user=USER     ajusta USER como usuario proxy.
         --proxy-passwd=PASS   ajusta PASS como senha proxy.
    -s,  --save-headers        salvar cabeçalhos HTTP para arquivo.
    -U,  --user-agent=AGENT    idtentifica-se como AGENT em vez de Wget/VERSION.

  Opções FTP:
         --retr-symlinks   recuperar links simbólicos do FTP.
    -g,  --glob=on/off     turn file name globbing on or off.
         --passive-ftp     usar modo de transferência "passivo".

  Recuperação recursiva:
    -r,  --recursive             chupador-web recursivo -- use com cuidado!.
    -l,  --level=NUMBER          nível máximo de profundidade (0=ilimitado).
         --delete-after          excluir arquivos após baixar.
    -k,  --convert-links         converter links não relativos para relativos.
    -m,  --mirror                ligar opções apropriadas para espelhamento.
    -nr, --dont-remove-listing   não remover arquivos `.listing'.

  Opções de aceitação/rejeição recursivas:
    -A,  --accept=LIST                lista de extensões aceitas.
    -R,  --reject=LIST                lista de extensões rejeitadas.
    -D,  --domains=LIST               lista de domínios aceitos.
         --exclude-domains=LIST       lista (separada por vírgula) de domínios rejeitados.
    -L,  --relative                   seguir apenas links relativos.
         --follow-ftp                 seguir links FTP a partir de documentos HTML.
    -H,  --span-hosts                 ir para hospedeiros estrangeiros quando em modo
  recursivo.
    -I,  --include-directories=LIST   lista de diretórios permitidos.
    -X,  --exclude-directories=LIST   lista de diretórios excluídos.
    -nh, --no-host-lookup             não faça a procura de DNS.
    -np, --no-parent                  não subir para diretórios pais.

  Envie relatórios de erros ee sugestões para <bug-wget@gnu.org>.

   ------- Notas do tradutor -------- 
  Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar
  na tradução, inclui abaixo uma tabela de alguns termos e como os trabuzi.
  Retrieve -           recuperação
  Foreing -            estrangeiro
  Host -               hospedeiro
  DNS-Lookup -         procura de DNS
  Parent directories - diretórios pai
  Append -             acrescentar

  Tradução: Felipe Machado Cardoso <felipemc@faesa.br>

 

Quando usar o download recursivo tente a opção

–level=profundidade

Onde “profundidade” é até que ponto o wget desca na árvore do site a ser baixado

 

veja também

 

————————————————————————————————————-

Fonte: http://sergioaraujo.pbworks.com/w/page/15864100/wget