Esta no es una situación muy común, pero hay ocasiones en que un webmaster se puede ver en la necesidad de impedir que los bots indexen alguna carpeta o algún archivo por ejemplo. Hacer esto es relativamente sencillo, y solamente será necesario utilizar el archivo robots.txt de nuestro sitio. ¿Qué es lo que hace robots.txt exactamente? Su función principal es la de impedir que los bots puedan ingresar a determinados sectores de nuestro sitio o restringir el acceso a algún archivo en particular por ejemplo. Antes de escanear un sitio web, los robots siempre van a consultar primero este archivo para ver qué no se debe chequear.
Si queremos que nuestro sitio sea indexado completamente por los buscadores, entonces no habrá necesidad de usar un robots.txt, pero si eso no es así, entonces este archivo se convierte en una potente herramienta, y lo mejor es que su uso es sumamente sencillo. El archivo robots.txt debe estar ubicado en la raíz de tu sitio para facilitar la lectura de los bots. Veamos a continuación sus reglas, que son dos y en realidad son muy simples:
-User-Agent: se indica el robot al cual se aplicará la regla. -Disallow: se usa para especificar una URL que queremos bloquear.
Un par de ejemplos de su uso:
User-Agent: Googlebot Disallow: /micarpeta1/
En el caso de arriba hemos configurado el archivo robots.txt de forma tal que el bot de Google no indexe la carpeta llamada «micarpeta1» de nuestro sitio web.
User-Agent: * Disallow: /micarpeta1/
En este segundo ejemplo, hemos indicado que ningún bot de ningún buscador tendrá que indexar la carpeta «micarpeta1».
Si lo que buscamos es bloquear un archivo en particular, esta es la forma de hacerlo (usaremos una imagen como ejemplo):
User-agent: Googlebot-Image Disallow: /misimagenes/paisaje1.png
Lo que hemos hecho es indicar que el bot de imágenes de Google no debe indexar la imagen llamada «paisaje1.jpg» que se encuentra en la carpeta «misimagenes».
¿Y si queremos impedir que se indexen todas las imágenes .png de la carpeta por ejemplo? Lo hacemos de la siguiente manera:
User-agent: Googlebot-Image Disallow: /misimagenes/*.png
Nuevamente el bot de imágenes de Google no podrá indexar contenido, y en este caso se trata de todas las imágenes .png que estén en la carpeta «misimagenes».
Utilizar el archivo robots.txt puede ser muy beneficioso, pero si no lo manejas adecuadamente puedes hacer que tu posicionamiento en los buscadores caiga en picada, así que ten cuidado a la hora de manipularlo y procura estudiarlo detenidamente. Si quieres ver una lista de los bots existentes, puedes hacerlo en este enlace. Ten en cuenta además que si bien muchos bots suelen cumplir con la función de indexar páginas, hay otros que realizan tareas muy distintas, como por ejemplo de mantenimiento, validación de enlaces, etc.