2.10.1.3 Como Crear un Archivo Robots.txt Para un Sitio Web

Ilustracionde archivo Robot

Cada sitio web debe tener un archivo robot.txt, ya sea si sirve paginas estáticas o dinámicas.

Debe tenerlo cualquier sitio creado en WordPress o cualquier otra plataforma. 

¿En que se usa el archivo robots.txt?

El archivo robots.txt es creado para los bots o arañas de los buscadores.
De existir es lo primero que revisan al entrar en cualquier sitio.
Indica la estructura del sitio, la ubicación del sitemap.xml y las páginas y directorios que no se deben revisar.
No es obligatorio tener uno, solo es necesario si necesitamos restringir contenido de nuestro sitio a los robots de los buscadores.
En él especificamos los archivos o directorios que no deben ser rastreados.
No obstante puede ser muy importante por varias razones y está demostrado que usar correctamente un archivo robot.txt, contribuye a que mejore nuestro posicionamiento. 

¿Para qué usar el archivo robot.txt?

Los principales motivos por los que necesitamos usar un robots.txt en nuestro sitio son los siguientes:

1- Mejorar el ranking del sitio aclarando y facilitándoles a los bots cuáles son los directorios que pueden ser indexados.
1- Impedir el consumo de banda innecesario rastreando archivos auxiliares del sitio.
3- Impedir que se indexen archivos personales o con contenido privado.
Pueden ser documentos, imágenes, fotos u otros archivos que no deseamos que aparezcan accidentalmente en los resultados de las búsquedas.
4- Impedir que seamos perjudicados por los buscadores al indexar contenido duplicado (principalmente en WordPress).
En WordPress se generan de forma automática muchas páginas que tienen el mismo contenido, como son las páginas de categorías.

Como crear manualmente un archivo robots.txt para un sitio web

Hay varios servicios de internet que permiten crear un archivo robots.txt.
No obstante al ser tan fácil y elemental su creación, podemos hacerlo nosotros mismos manualmente y de esa forma evitar cualquiera equivocación que pueda ser funesta para el posicionamiento de nuestro sitio.
Más adelante sí podemos comprobarlo en la web.
Un archivo robots.txt es un sencillo archivo de texto plano que se puede crear con el Blog de notas o cualquier otro editor de texto.
Solo crea en el escritorio un nuevo archivo de texto y renómbralo a: robots.txt (sin mayúsculas)
Puede tener varias líneas, pero usa solo tres reglas:

User-agent: - Se indica que lo que va a continuación va dirigido a un robot en particular o a todos.
Disallow: - La dirección URL de una carpeta o archivo que necesitamos bloquear.
Allow: - La dirección URL de una carpeta o archivo que permitimos su rastreo, aunque se encuentre en el interior de un directorio bloqueado.

Se pueden incluir varias líneas Disallow y varios User-agents en un mismo archivo.
Solo sigue las siguientes reglas:

  • Para bloquear una carpeta y todo su contenido, inserta una barra inclinada después del nombre del mismo.
  • Para bloquear una página específica, insértala después de la línea Disallow.
  • Antes de cada User-agent nuevo deja una línea en blanco.
  • Entre las distintas reglas (Disallow) no debe existir ninguna línea en blanco.

Ejemplo 1

User-agent: *
Disallow: /archivos1/

En este caso la directiva va dirigida a todos los robots y se indica que la carpeta de nombre archivos1 y todo su contenido no se debe rastrear. 

Ejemplo 2

User-Agent: Googlebot
Disallow: /ventas/
Disallow: servicios.html

En este ejemplo el robot de Google no podrá rastrear el contenido de la carpeta "ventas", ni la página "servicios.html" donde anunciamos y vendemos productos de afiliados.
Google usa varios robots:

  • Googlebot, rastrea páginas y contenido web.
  • Googlebot-Image, rastrea imágenes y fotos para Imágenes de Google
  • Googlebot-Mobile, contenido para dispositivos móviles.
  • Mediapartners-Google, es el robot del servicio de AdSense.

Consejos al crear un robots.txt

 1- Si usas el servicio de Google AdSense debes permitir el rastreo completo a su robot, comienza el archivo con las siguientes líneas:

User-agent: Mediapartners-Google
Disallow:

2- Si usas diseño adaptable en tu sitio no debes bloquear el acceso al directorio que contiene los archivos de estilo CSS.
3- Siempre ten en cuenta que los robots de los buscadores son sensibles a las mayúsculas y minúsculas.
4- Al final del archivo robots.txt se debe indicar la dirección del archivo sitemap.xml del sitio o de los archivos si son varios.

Como probar el archivo robots.txt creado

Antes de subir el archivo creado al servidor puedes probar su contenido y estructura.
Si tu objetivo es Google puedes probar el archivo usando la Herramientas para Webmasters de Google.
Haz lo siguiente:
• En la barra a la izquierda escoge Rastreo -> URL bloqueadas.
• En el cuadro de Análisis de robots.txt pega el contenido del archivo creado.
• En el inferior introduce la dirección URL de tu sitio.
• Presiona el botón "Probar".
 Puedes también emplear la opción de probar con robots o User-agents diferentes de Google.
Si no se detectan errores ya puedes subir el archivo a tu servidor.

¿Dónde situar el archivo robots.txt?

El archivo robots.txt debe estar situado en la raíz del servidor web, allí será donde lo busquen los bots. Si se sitúa en otra ubicación no tiene efecto alguno.
La carpeta raíz de un servidor se nombra: htdocs o public_html, dependiendo del sistema operativo del servidor.
Finalmente la dirección URL del archivo creado debe tener el siguiente formato:
http://sitio-web/robots.txt
Introdúcela en un navegador y comprueba si se puede acceder correctamente.

Herramienta online para probar un archivo robots.txt

Puedes también probar un archivo robots.txt online usando la siguiente herramienta, solo necesitas en el formulario indicar la dirección URL del archivo.
Se indica cualquier error existente y se muestran advertencias.
Robots.txt Checker

Crear un archivo robots.txt para WordPress

WordPress recomienda crear un archivo robots.txt que tenga la siguiente estructura:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/

Como se puede comprobar de esa forma se excluyen muchos directorios con archivos del servidor que no es necesario indexar y muchos archivos como las páginas de categorías, que se pueden considerar como contenido duplicado y afectar nuestro posicionamiento.
La última línea se usa para que las imágenes puedan ser indexadas correctamente y se muestren en las consultas de las búsquedas.
Si en tu caso no lo deseas, solo elimínala.

Otras formas de bloquear páginas o archivos en un sitio web

La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.
Se puede usar en los sitios que usan Apache incluyendo la directiva en un archivo .htaccess que puede situarse en la raíz del sitio o en un directorio.
De esa forma se puede aplicar de forma global el atributo NoFollow a un grupo de páginas o a todo un sitio.
Archivos robots.txt de ejemplo para descargar

Descarga un paquete que contiene varios archivos robots.txt de ejemplo, para usarlos en un blog o sitio web.
Incluyen comentarios que explican cada función.
Las líneas que comienzan con el carácter # son comentarios y se pueden eliminar.

 DESCARGAR ARCHIVOS