El archivo robots.txt, conocido como Robots Exclusions Protocol, es una parte esencial de tu sitio web. Da instrucciones a los robots de los motores de búsquedas que repasan tus páginas web. Si lo configuras mal puede perjudicar a tu posicionamiento o, peor aun, hacerlo totalmente invisible para los motores de búsqueda.
En este post, os explicamos todo sobre el robots.txt para evitar errores y mejorar el SEO de tu sitio web.
¿Qué es el robots.txt?
Es una lista de instrucciones para las motores de búsqueda como Google, Bing, Yahoo etc. Indica las areas de tu web que se pueden indexar y las que no. A partir de esta definición se puede entender lo importante de este archivo para el correcto posicionamiento de las páginas y elementos (categorías, productos, imágenes, etc.) de tu web.
¿Cómo funciona el robots.txt?
Cuando los robots rastrean tu sitio web, la primera acción que hacen es buscar tu archivo robots.txt para saber qué pagina visitar e indexar.
Para encontrar en tu sitio web o blog el robots.txt soló tienes que añadir /robots.txt a tu dominio.
www.mi-dominio.com/robots.txt
¿Cuándo tenemos que utilizar el robots.txt?
El robots.txt es útil en las circunstancias siguientes:
- Ignorar páginas duplicadas.
- No indexar los resultados de búsqueda interna (hecho con el buscador de tu propia web).
- No indexar algunas áreas de tu sitio web.
- No indexar algunos archivos (imágenes, documentos PDF, etc) de tu sitio web.
- Indicar a los motores de búsqueda dónde se encuentra tu mapa de sitio (sitemap).
Hay varias razones por las que un archivo robots.txt sería un añadido beneficioso para tu sitio web; éstas son:
El contenido duplicado
Puedes tener contenido duplicado en su sitio web. El contenido duplicado es castigado por los motores de búsqueda y debe ser evitado siempre que sea posible. El archivo robots.txt te permite acabar con el contenido duplicado de tu web dando instrucciones a los rastreadores web.
Para los contenidos duplicados se puede utilizar el etiquetado canonical (hablaremos de él en un próximo post).
Resultados de la búsqueda interna
Si tienes la función de búsqueda interna en tu sitio web, puedes optar por omitir las paginas de resultados generada por este tipo de consulta.
Haciendo caso omiso de las áreas protegidas de tu sitio web
Puede indicar a los rastreadores web ignorar algunos archivos o áreas cómo el intranet de los empleados. Hay razones legales para hacerlo, cómo la protección de datos de información de los empleados, o simplemente porque no son paginas relevantes para los usuarios de tu web.
Localizar tu fichero sitemap.xml
Otra herramienta utilizada por los robots es el sitemap, o mapa de sitio, dónde se detalla el árbol de ubicaciones de las páginas de tu sitio web.
Insertando la url del sitemap en tu robots.txt facilitas el rastreo de los robots al contenido más importante de tu web.
Crear un fichero robots.txt
- Crear un nuevo archivo de texto utilizando TextEdit (Mac) y Bloc de Notas (PC) y guardarlo como el nombre «robots.txt»
- Subir al directorio raíz de tu sitio web normalmente llamado «htdocs» o «www», que hace que aparezca directamente después del nombre de dominio.
- Si utilizas subdominios, podrás crear un archivo robots.txt para cada uno de ellos.
Instrucciones comunes de archivos Robots.txt
El archivo robots.txt depende de los requisitos propios de tu web, por eso cada robots.txt es diferente de una web a otra. No obstante, existen algunas instrucciones generales para configurar un buen rastreo de tu sitio.
Primero hay que autorizar a los robots para rastrear tu web, utilizando el comando «User-agent:». Ejemplo: User-agent: Googlebot (uno de los robots de Google) significa: «Google: sigue las instrucciones de abajo.»
Si quieres autorizar todos los rastreadores soló tienes que poner lo siguiente: User-agent: *
En este enlace encontraras todos los rastreadores de motores de búsqueda.
No-indexar paginas especificas
El paso siguiente después del User-agent, es utilizar las instrucciones Allow: y Disallow: para indicar a los robots qué indexar y qué no.
Ejemplo:
User-agent: *
Allow: /
Disallow: /terminos-condiciones
Localizar el sitemap
Como dijimos anteriormente, indicar a los rastreadores web dónde se encuentra el sitemap XML es una buena práctica para el SEO de tu web. Puedes indicarlo en el robots.txt de esta manera:
User-agent *
Allow: /
Sitemap: http//:www.mi-dominio/sitemap.xml
Si quieres saber más sobre este tema, te recomendamos esta guía completa en Google Webmaster Tools para conocer otros comandos y probar tu robots.txt.