Robots.txt – aprenda a configurá-lo

Saiba como evitar que determinadas páginas do site apareçam no Google

Como veremos na tópico sobre o Googlebot, os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas, em busca de conteúdo a ser indexado e exibido nos resultados de busca. Porém, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, como por exemplo:

  • Páginas de Login – uma página de login a uma área restrita, como acesso à intranet, geralmente não deve ser indexada;
  • Páginas de conteúdo repetido – Caso você tenha, por exemplo, diversas Landing Pages com conteúdo bastante similar rodando para suas campanhas Google AdWords, deve bloquear as cópias e deixar apenas uma versão ser indexada pelo Google, minimizando o problema do conteúdo duplicado;
  • Páginas de impressão – Se seu site tiver versões para tela e impressão sendo indexadas, elimine a versão para impressão do índice do Google.

O que é robots.txt

Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas). Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem. O próprio Google usa um arquivo em http://www.google.com/robots.txt, e navegar por ele é no mínimo curioso.

Sintaxe do Robots.txt

O arquivo robots.txt tem o papel de criar uma política de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site. Vejamos os principais comandos do arquivo robots.txt:

 

User-agent

A função do comando user-agent é listar quais robôs devem seguir as regras indicadas no arquivo robots.txt. Supondo que você deseje somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt,basta indicar o User-agent como Googlebot. Eis as principais opções:

  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot
  • Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando user-agent)

 

Disallow

O comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. Exemplos:

  • Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
  • Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”
  • Disallow: print1.html – orienta aos robots a não indexarem conteúdo da página print1.html.

 

Allow

O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos. Assim, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note por exemplo no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Disallow: /catalogs  
Allow: /catalogs/about

Sitemap

Uma outra função permitia pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta para Webmasters do Google, porém, oferece um maior controle e visibilidade para a mesma função – comunicar ao Google onde está o ou os arquivos sitemap. Note como o Google submete, em seu robots.txt, diversos sitemaps:

Sitemap: http://www.google.com/hostednews/sitemap_index.xml  
Sitemap: http://www.google.com/sitemaps_webmasters.xml  
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml  
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml  
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml  
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml  
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Cuidados com o arquivo robots.txt

Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes. Assim, cuidado com o que é incluído nesse arquivo. Evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = “robots”), explicada no tópico de meta tags deste tutorial.

Aplicação de Robots.txt

Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots, então, bloqueou o acesso ao diretório /docs com o comando “Disallow: /docs” no arquivo robots.txt. Dentro desse diretório, porém, existe um sub-diretório chamado “public”, que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução “Allow: /docs/public/”.

Exemplos reais de Robots.txt

Para olhar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raíz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. Veja abaixo alguns exemplos:

 

 

Sobre o autor: Fundador da SEO Marketing, Bernhard Schultze é líder do comitê de Search da APADI (Associação Paulista de Agências Digitais) e instrutor do curso de SEO da Digitalks. Perfil Google Plus: +Bernhard Schultze

 

 

http://www.seomarketing.com.br/robots.txt.php

http://www.google.com/robots.txt

 

User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Allow: /catalogs/about
Allow: /catalogs/p?
Disallow: /catalogues
Allow: /newsalerts
Disallow: /news
Allow: /news/directory
Disallow: /nwshp
Disallow: /setnewsprefs?
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
Disallow: /?hl=*&*&gws_rd=ssl
Allow: /?gws_rd=ssl$
Allow: /?pt1=true$
Disallow: /addurl/image?
Allow:    /mail/help/
Disallow: /mail/
Disallow: /pagead/
Disallow: /relpage/
Disallow: /relcontent
Disallow: /imgres
Disallow: /imglanding
Disallow: /sbd
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /default
Disallow: /m?
Disallow: /m/
Allow:    /m/finance
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local?
Disallow: /local_url
Disallow: /shihui?
Disallow: /shihui/
Disallow: /froogle?
Disallow: /products?
Disallow: /froogle_
Disallow: /product_
Disallow: /products_
Disallow: /products;
Disallow: /print
Disallow: /books/
Disallow: /bkshp?*q=*
Disallow: /books?*q=*
Disallow: /books?*output=*
Disallow: /books?*pg=*
Disallow: /books?*jtp=*
Disallow: /books?*jscmd=*
Disallow: /books?*buy=*
Disallow: /books?*zoom=*
Allow: /books?*q=related:*
Allow: /books?*q=editions:*
Allow: /books?*q=subject:*
Allow: /books/about
Allow: /booksrightsholders
Allow: /books?*zoom=1*
Allow: /books?*zoom=5*
Disallow: /ebooks/
Disallow: /ebooks?*q=*
Disallow: /ebooks?*output=*
Disallow: /ebooks?*pg=*
Disallow: /ebooks?*jscmd=*
Disallow: /ebooks?*buy=*
Disallow: /ebooks?*zoom=*
Allow: /ebooks?*q=related:*
Allow: /ebooks?*q=editions:*
Allow: /ebooks?*q=subject:*
Allow: /ebooks?*zoom=1*
Allow: /ebooks?*zoom=5*
Disallow: /patents?
Disallow: /patents/download/
Disallow: /patents/pdf/
Disallow: /patents/related/
Disallow: /scholar
Disallow: /citations?
Allow: /citations?user=
Disallow: /citations?*cstart=
Allow: /citations?view_op=new_profile
Allow: /citations?view_op=top_venues
Disallow: /complete
Disallow: /s?
Disallow: /sponsoredlinks
Disallow: /videosearch?
Disallow: /videopreview?
Disallow: /videoprograminfo?
Allow: /maps?*output=classic*
Allow: /maps/api/js?
Allow: /maps/d/
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /maphp?
Disallow: /mapprint?
Disallow: /maps/api/js/
Disallow: /maps/api/staticmap?
Disallow: /mld?
Disallow: /staticmap?
Disallow: /places/
Allow: /places/$
Disallow: /maps/preview
Disallow: /maps/place
Disallow: /help/maps/streetview/partners/welcome/
Disallow: /help/maps/indoormaps/partners/
Disallow: /lochp?
Disallow: /center
Disallow: /ie?
Disallow: /sms/demo?
Disallow: /katrina?
Disallow: /blogsearch?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Disallow: /mbd?
Disallow: /extern_js/
Disallow: /xjs/
Disallow: /calendar/feeds/
Disallow: /calendar/ical/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /trends/hottrends?
Disallow: /trends/viz?
Disallow: /trends/embed.js?
Disallow: /trends/fetchComponent?
Disallow: /notebook/search?
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /browsersync
Disallow: /call
Disallow: /archivesearch?
Disallow: /archivesearch/url
Disallow: /archivesearch/advanced_search
Disallow: /base/reportbadoffer
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /codesearch?
Disallow: /codesearch/feeds/search?
Disallow: /wapsearch?
Disallow: /safebrowsing
Allow: /safebrowsing/diagnostic
Allow: /safebrowsing/report_badware/
Allow: /safebrowsing/report_error/
Allow: /safebrowsing/report_phish/
Disallow: /reviews/search?
Disallow: /orkut/albums
Allow: /jsapi
Disallow: /views?
Disallow: /c/
Disallow: /cbk
Allow: /cbk?output=tile&cb_client=maps_sv
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /translate_a/
Disallow: /translate_c
Disallow: /translate_f
Disallow: /translate_static/
Disallow: /translate_suggestion
Disallow: /profiles/me
Allow: /profiles
Disallow: /s2/profiles/me
Allow: /s2/profiles
Allow: /s2/oz
Allow: /s2/photos
Allow: /s2/search/social
Allow: /s2/static
Disallow: /s2
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /cse/home
Disallow: /cse/panel
Disallow: /cse/manage
Disallow: /tbproxy/
Disallow: /imesync/
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /ppob/?
Disallow: /ppob?
Disallow: /adwordsresellers
Disallow: /accounts/ClientLogin
Disallow: /accounts/ClientAuth
Disallow: /accounts/o8
Allow: /accounts/o8/id
Disallow: /topicsearch?q=
Disallow: /xfx7/
Disallow: /squared/api
Disallow: /squared/search
Disallow: /squared/table
Disallow: /toolkit/
Allow: /toolkit/*.html
Disallow: /globalmarketfinder/
Allow: /globalmarketfinder/*.html
Disallow: /qnasearch?
Disallow: /app/updates
Disallow: /sidewiki/entry/
Disallow: /quality_form?
Disallow: /labs/popgadget/search
Disallow: /buzz/post
Disallow: /compressiontest/
Disallow: /analytics/reporting/
Disallow: /analytics/admin/
Disallow: /analytics/web/
Disallow: /analytics/feeds/
Disallow: /analytics/settings/
Allow: /alerts/manage
Allow: /alerts/remove
Disallow: /alerts/
Allow: /alerts/$
Disallow: /ads/search?
Disallow: /ads/plan/action_plan?
Disallow: /ads/plan/api/
Disallow: /phone/compare/?
Disallow: /travel/clk
Disallow: /hotelfinder/rpc
Disallow: /hotels/rpc
Disallow: /flights/rpc
Disallow: /commercesearch/services/
Disallow: /evaluation/
Disallow: /chrome/browser/mobile/tour
Disallow: /compare/*/apply*
Disallow: /forms/perks/
Disallow: /baraza/*/search
Disallow: /baraza/*/report
Disallow: /shopping/suppliers/search
Disallow: /ct/
Disallow: /edu/cs4hs/
Disallow: /trustedstores/s/
Disallow: /trustedstores/tm2
Disallow: /trustedstores/verify
Disallow: /adwords/proposal
Disallow: /shopping/product/
Disallow: /shopping/seller
Disallow: /shopping/reviewer
Disallow: /about/careers/apply/
Disallow: /about/careers/applications/
Disallow: /landing/signout.html
Allow: /gb/images
Allow: /gb/js
Disallow: /gallery/
Allow: /chromecast/setup$
Allow: /chromecast/setup/$
Sitemap: http://www.gstatic.com/culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xml
Sitemap: https://www.google.com/edu/sitemap.xml
Sitemap: https://www.google.com/work/sitemap.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/maps/views/sitemap.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
Sitemap: http://www.google.com/adwords/sitemap.xml
Sitemap: http://www.google.com/drive/sitemap.xml
Sitemap: http://www.google.com/docs/sitemaps.xml
Sitemap: http://www.google.com/sheets/sitemaps.xml
Sitemap: http://www.google.com/slides/sitemaps.xml
Sitemap: http://www.google.com/forms/sitemaps.xml

Deixe um comentário