
Éste es un archivo de texto dedicado a los robots de los motores de búsqueda y que contiene una serie de comandos que le indican al robot del buscador que páginas debe rastrear y cuáles no.
¿Cómo configurar tu robots.txt?
El robots cuelga siempre de la carpeta raíz (public_html, httpdocs, www,…) dependiendo del servidor donde esté alojado. Dentro del archivo de texto se tienen que especificar lo que debe hacer cada robot de cada buscador. A continuación se indican los más conocidos:
-
- Google usa Googlebot
- Yahoo usa yahoo-slurp
- MSN usa msnbot
- DMOZ Checker usa robozilla
- Baidu (buscador de China) usa baiduspider
- Soso.com (buscador de China) usa Sosospider
- Yandex (buscador de Rusia) usa YandexBot
- Gigablast usa gigabot
- Scrub the Web usa scrubyy
- Alexa/Wayback usa ia_archiver
Además, los buscadores tienen otros bots para algunas partes de su negocio:
- Google Imágenes usa googlebot-image
- Google Mobile usa googlebot-mobile
- Yahoo MM psbot usa mmcrawler
Las principales directrices
Una vez sabemos qué bots queremos que rastreen nuestra web o parte de ella, tenemos que proceder a escribir estos comandos en el robots.txt. Para eso tenemos 3 directrices principales:
User-agent: Le estamos indicando a qué bots queremos evitar que nos indexen ese contenido.
Disallow: Le estamos indicando que carpeta o archivo queremos que no indexen (i.e. Disallow: /usuarios/ para que no indexe la carpeta de usuarios de tu web)
Crawl-delay: Le estamos indicando con qué frecuencia queremos que los bots pasen por nuestra web. Las unidades se muestran en segundos (i.e. Crawl-delay: 90 para que pase cada 90 segundos).
Algunos ejemplos concretos
- Excluir a todos los robots de tu web:
User-agent: * Disallow:
- Dar acceso completo a la web a todos los robots (aunque si creas un robots.txt en blanco también funciona):
User-agent: * Disallow:
- Excluir todos los robots de alguna parte de tu web:
User-agent: * Disallow: /facturas/ Disallow: /pedidos/ Disallow: /usuarios/
- Excluir un solo robot de tu web (i.e. YandeBot):
User-agent: YandeBot Disallow: /
- Dar acceso completo a la web a un solo robot:
User-agent: Google Disallow: User-agent: * Disallow: /
Si te parece muy difícil te adjuntamos una herramienta online para hacer robots.txt: Aquí. Y si quieres ampliar la información te dejamos el artículo de Google sobre robots.txt.