✨ Consigue 25% OFFen cualquier plan. Usa el cupón:

Robots.txt: qué es y cómo usar el archivo en tu sitio

Por Tiago CostaActualizado el 2 de julio de 2026

Ilustración de un robot frente a la verja de un sitio sosteniendo una lista, con carteles de permitido y bloqueado, que representa el archivo robots.txt.
Definición

Robots.txt es un archivo de texto simple, ubicado en la raíz del dominio (en tudominio.com/robots.txt), que orienta a los robots de los buscadores sobre qué partes del sitio pueden rastrear. Suele contener:

  • una línea User-agent que nombra al robot objetivo;
  • reglas Disallow para las rutas que no deben rastrearse;
  • reglas Allow que abren excepciones;
  • una línea Sitemap que apunta al mapa del sitio.

Qué es el archivo robots.txt

Robots.txt es un archivo de texto simple, guardado en la raíz del dominio (en tudominio.com/robots.txt), que indica a los robots de los buscadores qué partes del sitio pueden o no rastrear. Es la puerta de entrada que todo crawler educado consulta antes de recorrer las páginas.

El archivo sigue el Protocolo de Exclusión de Robots (REP, por sus siglas en inglés), un estándar creado en 1994 y adoptado por prácticamente todos los buscadores. Las reglas son públicas: cualquier persona puede abrir el robots.txt de un sitio escribiendo la dirección en el navegador.

Conviene entender su papel desde ya: el robots.txt controla el rastreo, no la indexación. Es decir, dice por dónde puede andar el robot, pero no es la herramienta adecuada para ocultar una página de los resultados de búsqueda.

Cómo funciona el robots.txt en la práctica

Siempre que un buscador visita un sitio, lo primero que hace el motor de búsqueda es buscar el archivo en /robots.txt. Si existe, el robot lee las instrucciones y las respeta; si no existe, asume que puede rastrear todo.

Las reglas se organizan en bloques, cada uno empezando por un User-agent (el robot objetivo) seguido de líneas Disallow y Allow. Un ejemplo típico:

  • User-agent: * aplica la regla a todos los robots;
  • Disallow: /admin/ pide que no rastreen la carpeta de administración;
  • Allow: /admin/ajax.php abre una excepción dentro de la carpeta bloqueada;
  • Sitemap: https://tudominio.com/sitemap.xml apunta al mapa del sitio.

Es importante recordar que estas reglas son una orientación, no un candado. Los robots legítimos como Googlebot obedecen, pero los robots maliciosos pueden simplemente ignorar el archivo.

Infografía de la anatomía de un archivo robots.txt que muestra las directivas User-agent, Disallow, Allow y Sitemap apiladas.
Anatomía de un archivo robots.txt: las directivas apiladas de arriba abajo.

Sintaxis y principales directivas

El robots.txt admite un conjunto pequeño de directivas. Conocer cada una evita bloqueos accidentales:

DirectivaQué hace
User-agentDefine a qué robot se aplican las reglas siguientes (usa * para todos).
DisallowMarca una ruta que el robot no debe rastrear.
AllowLibera una ruta específica dentro de un área bloqueada.
SitemapInforma la URL del sitemap XML para ayudar al descubrimiento de páginas.

Hay límites técnicos que respetar. Según la documentación de Google Search Central, Googlebot procesa solo los primeros 500 kibibytes (unos 512 KB) de un archivo robots.txt e ignora todo lo que venga después de ese límite. Directivas antiguas como Crawl-delay, por cierto, no son interpretadas por Google.

El robots.txt no bloquea la indexación

Este es el malentendido más caro del robots.txt. Bloquear una página con Disallow impide que el robot lea el contenido, pero no garantiza que quede fuera de Google. Si otras páginas la enlazan, el buscador puede indexar la URL incluso sin rastrearla, mostrando el resultado sin descripción.

La propia documentación de Google Search Central avisa de que el robots.txt no sirve para mantener una página fuera de los resultados de búsqueda. Para eso existe la directiva noindex, aplicada en la propia página.

Hay además una trampa: si bloqueas la página en el robots.txt, Google no puede leer la etiqueta noindex dentro de ella y el comando nunca se obedece. La regla práctica para sacar algo de la búsqueda es la contraria a la intuitiva: deja que el robot rastree y usa noindex. Entender la diferencia entre rastreo e indexación resuelve la mayoría de estos casos.

Ilustración de una página bloqueada por un candado que aún aparece en los resultados de búsqueda sin descripción, que muestra que Disallow no es lo mismo que noindex.

Dónde está el robots.txt y cómo crearlo en WordPress

El robots.txt está siempre en la raíz del dominio, accesible en tudominio.com/robots.txt. No existe un robots.txt por subcarpeta: cada dominio (y subdominio) tiene el suyo.

En WordPress, el sistema genera un archivo virtual automático cuando no hay uno físico. Para tomar el control, puedes:

  • usar un plugin de SEO como Yoast o Rank Math, que ofrece un editor de robots.txt directo en el panel;
  • crear un archivo físico llamado robots.txt en la carpeta raíz de la instalación, vía FTP o gestor de archivos;
  • activar la opción de robots.txt personalizado del plugin, que sustituye el archivo virtual por tus propias reglas.

Activar el robots.txt personalizado significa justamente eso: cambiar el archivo predeterminado que genera la plataforma por una versión editable, en la que defines manualmente qué liberar y qué bloquear.

Errores comunes y buenas prácticas

Por ser un archivo pequeño y poderoso, el robots.txt causa estragos cuando está mal configurado. Los deslices más frecuentes:

  • Bloquear todo el sitio: un Disallow: / olvidado tras el desarrollo saca todas las páginas del rastreo.
  • Bloquear CSS y JavaScript: impedir esos archivos dificulta que Google renderice la página y puede perjudicar la evaluación.
  • Confiar en el robots.txt para la privacidad: como el archivo es público, listar carpetas sensibles en él acaba revelando la ruta.
  • Olvidar el sitemap: incluir la línea Sitemap ayuda al buscador a descubrir tus URL más rápido.

Después de cualquier cambio, prueba el archivo en Google Search Console y trata el robots.txt como parte de tu rutina de SEO técnico. Un buen uso también ayuda a dirigir el presupuesto de rastreo hacia las páginas que de verdad importan.

Preguntas frecuentes

Preguntas frecuentes

¿Qué es activar un robots.txt personalizado?

Activar el robots.txt personalizado es sustituir el archivo automático que genera la plataforma por una versión editable, creada por ti. En plugins como Yoast y Rank Math, esta opción abre un editor donde defines manualmente qué áreas del sitio liberar (Allow) y cuáles bloquear (Disallow).

¿Dónde está el archivo robots.txt en WordPress?

Está en la raíz del dominio, en tudominio.com/robots.txt. En WordPress, por defecto el archivo es virtual (generado por el sistema). Para editarlo, usa un plugin de SEO o crea un archivo físico robots.txt en la carpeta raíz de la instalación vía FTP.

¿Cuál es la función principal del archivo robots.txt en el SEO?

Orientar a los rastreadores sobre qué partes del sitio pueden o no acceder, evitando que rastreen páginas irrelevantes y ayudando a dirigir el presupuesto de rastreo hacia el contenido importante. Controla el rastreo, no la indexación.

¿Qué hace el Googlebot?

El Googlebot es el robot rastreador de Google. Recorre la web siguiendo enlaces, lee el robots.txt de cada sitio para saber qué puede acceder y envía las páginas permitidas para que sean procesadas y, si corresponde, indexadas en los resultados de búsqueda.

Deja la parte técnica de tu blog en automático

Automarticles crea, optimiza y publica los artículos de tu blog por sí sola, cuidando el SEO técnico y el rastreo para que te concentres en el negocio.

Empezar prueba gratis
Sigue aprendiendo

Conceptos relacionados

CrawlerUn crawler es un programa robot que recorre la web de enlace en enlace, descargando y leyendo páginas para alimentar el índice de un buscador. También llamado spider, robot o bot, el ejemplo más conocido es Googlebot. El crawler es la primera etapa de la búsqueda: antes de que una página pueda ser indexada y posicionada, tiene que ser encontrada y leída por uno de estos rastreadores.Sitemap XMLUn sitemap XML es un archivo en formato XML que lista las URLs importantes de un sitio para ayudar a los buscadores a descubrir, rastrear y priorizar esas páginas. Funciona como un mapa del sitio entregado a Google, indicando qué direcciones existen y, opcionalmente, cuándo se actualizaron, lo que resulta especialmente útil en sitios grandes, nuevos o con páginas poco conectadas por enlaces internos.NoindexNoindex es una directiva que indica a los buscadores que no incluyan una página en los resultados de búsqueda. Se aplica mediante una meta etiqueta robots en el HTML o mediante una cabecera HTTP, y hace que Google retire la página del índice aunque otros sitios la enlacen. A diferencia del robots.txt, que bloquea el rastreo, el noindex exige que la página siga siendo rastreable para que el buscador pueda leer la instrucción.IndexaciónLa indexación es el proceso por el que el buscador añade una página a su índice, la enorme base de datos que consulta para responder a las búsquedas. Tras rastrear y analizar el contenido, Google decide si almacena la página en el índice, y solo lo que está indexado puede aparecer en los resultados. En SEO, garantizar la indexación es el paso obligatorio antes de cualquier intento de posicionar: una página fuera del índice es, en la práctica, invisible para quien busca.