Robots.txt

Concepto de Robots.txt

¿Qué es Robots.txt?

El robots.txt, también conocido como robots txt, es un archivo que se crea y se conecta a una página web para modificar y guiar el comportamiento de los robots o arañas de los buscadores. Por lo general, se suele emplear para evitar que estos detecten cierto contenido que no se desea indexar en los resultados.

Dentro del archivo robots.txt pueden estar incluidas direcciones URL, así como directorios, subdirectorios o incluso archivos del sitio que no nos beneficia que sean indexados para ser mostrados en las SERPs.

Dicho esto, como está muy relacionado con la función de agregar contenido a los motores de búsqueda de Internet, se debe tener mucho cuidado a la hora de producir el archivo en cuestión, sobre todo si el sitio tiene base en un gestor de contenido, conocido por sus siglas CMS, que pueda generar el robots.txt automáticamente. Si hubiese un descuido, podría agregarse de forma accidental alguna entrada que sí queremos que sea indexada.

También se conoce a este tipo de archivo como protocolo de exclusión de robots, dada su función principal. Además, se sabe que no garantiza que no haya indexación ni el total hermetismo del sitio, aunque muchos usuarios lo utilizan para mantener ciertas áreas o secciones de su página web de forma privada.

Es una acción válida, pero no es definitiva y en ese caso habría que buscar otras alternativas más eficaces. Por eso mismo se recomienda que el administrador se limite al uso principal del archivo, que es el de indicarles a las arañas de Google qué contenido no debe mostrar, o bien mostrarle cuál es el sitemap del sitio web, que se puede lograr incluyendo el URL del mismo en el documento.

¿Para qué sirve el archivo robots.txt?

Aunque ya hemos indicado cuáles son sus funciones, lo cierto es que uno podría pensar que puede ser más sencillo eliminar el contenido que no queremos mostrar, pero no es tan fácil. Hay elementos de una página que deben estar ahí porque sí, aunque no necesariamente sea material que se puede mostrar.

El robots.txt ayuda enormemente a las arañas de Google u otros motores de búsqueda en su trabajo, haciendo que sea más fácil indexar lo que debe ser agregado a los resultados, y ahorrando algo de tiempo a estos robots. Esto quiere decir que no solo sirve para impedirles que visualicen un archivo, sino también para dictarles cómo deben rastrear los contenidos del sitio.

Además, no solo hay un archivo de este tipo, o mejor dicho, no hay un robots.txt único por página, ya que, si esta posee subdominios, cada uno de ellos debe tener el suyo propio, puesto que sería un poco engorrosa la programación de varias extensiones en un solo documento.

Con archivos robots.txt también puedes gestionar el tráfico de los rastreadores y evitar que los archivos de imagen, vídeo y audio aparezcan en los resultados de la búsqueda de Google. No obstante, hay que tener en cuenta que esto  no impedirá que otras páginas o usuarios enlacen a esos archivos concretos, al igual que sucede con las páginas. ¿Qué quiere decir esto? Que si otras webs apuntan al texto de esa página, puede llegar a indexarse aunque no tenga visitas.

Ejemplos de Robots.txt

En esencia, este documento de texto suele tener tres elementos. El primero hace referencia al robot o araña del buscador (user-agent), el segundo a las partes bloqueadas (disallow) y el tercero al sitemap de la web, quedando algo así:

User-agent: Googlebot (en este caso las arañas permitidas son las de Google, pero si se usa el * admite cualquier robot).

Disallow: /Directorio (aquí, el usuario ha decidido bloquear un directorio y, de esta manera, el contenido que hay en él. Puede ocurrir que quiera ocultar una página en específico. En ese caso quedaría algo como “Disallow: /sitio-web.html”).

Sitemap: /sitemap.xml (se indica la supuesta ruta de nuestro sitemap, un requisito obligatorio para todos los ficheros).

Más información sobre el Robots.txt

¿Quieres saber más acerca de este tipo de archivo y de las diferentes maneras en las que podemos hacer que Google y otros buscadores indexen tu página web? Estos enlaces te ayudarán.