Robots.txt: qué es y cómo usar el archivo en tu sitio
Por Tiago CostaActualizado el 2 de julio de 2026

Robots.txt es un archivo de texto simple, ubicado en la raíz del dominio (en tudominio.com/robots.txt), que orienta a los robots de los buscadores sobre qué partes del sitio pueden rastrear. Suele contener:
- una línea User-agent que nombra al robot objetivo;
- reglas Disallow para las rutas que no deben rastrearse;
- reglas Allow que abren excepciones;
- una línea Sitemap que apunta al mapa del sitio.
Qué es el archivo robots.txt
Robots.txt es un archivo de texto simple, guardado en la raíz del dominio (en tudominio.com/robots.txt), que indica a los robots de los buscadores qué partes del sitio pueden o no rastrear. Es la puerta de entrada que todo crawler educado consulta antes de recorrer las páginas.
El archivo sigue el Protocolo de Exclusión de Robots (REP, por sus siglas en inglés), un estándar creado en 1994 y adoptado por prácticamente todos los buscadores. Las reglas son públicas: cualquier persona puede abrir el robots.txt de un sitio escribiendo la dirección en el navegador.
Conviene entender su papel desde ya: el robots.txt controla el rastreo, no la indexación. Es decir, dice por dónde puede andar el robot, pero no es la herramienta adecuada para ocultar una página de los resultados de búsqueda.
Cómo funciona el robots.txt en la práctica
Siempre que un buscador visita un sitio, lo primero que hace el motor de búsqueda es buscar el archivo en /robots.txt. Si existe, el robot lee las instrucciones y las respeta; si no existe, asume que puede rastrear todo.
Las reglas se organizan en bloques, cada uno empezando por un User-agent (el robot objetivo) seguido de líneas Disallow y Allow. Un ejemplo típico:
- User-agent: * aplica la regla a todos los robots;
- Disallow: /admin/ pide que no rastreen la carpeta de administración;
- Allow: /admin/ajax.php abre una excepción dentro de la carpeta bloqueada;
- Sitemap: https://tudominio.com/sitemap.xml apunta al mapa del sitio.
Es importante recordar que estas reglas son una orientación, no un candado. Los robots legítimos como Googlebot obedecen, pero los robots maliciosos pueden simplemente ignorar el archivo.

Sintaxis y principales directivas
El robots.txt admite un conjunto pequeño de directivas. Conocer cada una evita bloqueos accidentales:
| Directiva | Qué hace |
|---|---|
| User-agent | Define a qué robot se aplican las reglas siguientes (usa * para todos). |
| Disallow | Marca una ruta que el robot no debe rastrear. |
| Allow | Libera una ruta específica dentro de un área bloqueada. |
| Sitemap | Informa la URL del sitemap XML para ayudar al descubrimiento de páginas. |
Hay límites técnicos que respetar. Según la documentación de Google Search Central, Googlebot procesa solo los primeros 500 kibibytes (unos 512 KB) de un archivo robots.txt e ignora todo lo que venga después de ese límite. Directivas antiguas como Crawl-delay, por cierto, no son interpretadas por Google.
El robots.txt no bloquea la indexación
Este es el malentendido más caro del robots.txt. Bloquear una página con Disallow impide que el robot lea el contenido, pero no garantiza que quede fuera de Google. Si otras páginas la enlazan, el buscador puede indexar la URL incluso sin rastrearla, mostrando el resultado sin descripción.
La propia documentación de Google Search Central avisa de que el robots.txt no sirve para mantener una página fuera de los resultados de búsqueda. Para eso existe la directiva noindex, aplicada en la propia página.
Hay además una trampa: si bloqueas la página en el robots.txt, Google no puede leer la etiqueta noindex dentro de ella y el comando nunca se obedece. La regla práctica para sacar algo de la búsqueda es la contraria a la intuitiva: deja que el robot rastree y usa noindex. Entender la diferencia entre rastreo e indexación resuelve la mayoría de estos casos.

Dónde está el robots.txt y cómo crearlo en WordPress
El robots.txt está siempre en la raíz del dominio, accesible en tudominio.com/robots.txt. No existe un robots.txt por subcarpeta: cada dominio (y subdominio) tiene el suyo.
En WordPress, el sistema genera un archivo virtual automático cuando no hay uno físico. Para tomar el control, puedes:
- usar un plugin de SEO como Yoast o Rank Math, que ofrece un editor de robots.txt directo en el panel;
- crear un archivo físico llamado robots.txt en la carpeta raíz de la instalación, vía FTP o gestor de archivos;
- activar la opción de robots.txt personalizado del plugin, que sustituye el archivo virtual por tus propias reglas.
Activar el robots.txt personalizado significa justamente eso: cambiar el archivo predeterminado que genera la plataforma por una versión editable, en la que defines manualmente qué liberar y qué bloquear.
Errores comunes y buenas prácticas
Por ser un archivo pequeño y poderoso, el robots.txt causa estragos cuando está mal configurado. Los deslices más frecuentes:
- Bloquear todo el sitio: un Disallow: / olvidado tras el desarrollo saca todas las páginas del rastreo.
- Bloquear CSS y JavaScript: impedir esos archivos dificulta que Google renderice la página y puede perjudicar la evaluación.
- Confiar en el robots.txt para la privacidad: como el archivo es público, listar carpetas sensibles en él acaba revelando la ruta.
- Olvidar el sitemap: incluir la línea Sitemap ayuda al buscador a descubrir tus URL más rápido.
Después de cualquier cambio, prueba el archivo en Google Search Console y trata el robots.txt como parte de tu rutina de SEO técnico. Un buen uso también ayuda a dirigir el presupuesto de rastreo hacia las páginas que de verdad importan.