Generador de robots.txt
Elige permitir todo, bloquear todo o crear reglas personalizadas y mira el archivo listo al instante. Copia o descarga y publícalo en la raíz del sitio. Sin registro, en tu navegador.
User-agent: * Disallow:
Todo sobre el robots.txt
El generador de robots.txt crea el archivo correcto para tu sitio en segundos. Elige permitir todo, bloquear todo o crear reglas personalizadas, copia el resultado y publícalo en la raíz del dominio. Más abajo encontrarás una guía completa de la sintaxis, de los errores que perjudican el SEO y de cómo tratar a los bots de IA.
Qué es el robots.txt y dónde se ubica
El robots.txt es un archivo de texto simple que indica a los robots de búsqueda qué partes del sitio pueden rastrear. Es lo primero que lee Googlebot cuando llega a tu dominio. Sus reglas orientan el rastreo, pero no sustituyen una contraseña: el contenido sensible siempre debe quedar protegido con autenticación.
El archivo debe estar en la raíz del dominio y abrir en https://tusitio.com/robots.txt. El nombre es siempre robots.txt, todo en minúsculas. Cada subdominio y cada protocolo tiene su propio archivo, así que blog.tusitio.com usa un robots.txt distinto del de tusitio.com.
Sintaxis y directivas del robots.txt
Un robots.txt está formado por bloques. Cada bloque empieza con la directiva User-agent, que define a qué robot se aplican las reglas, seguida de una o más líneas Disallow y Allow que cierran o abren rutas. La línea Sitemap puede aparecer en cualquier punto y apunta a tu mapa del sitio.
| Directiva | Qué hace | Ejemplo |
|---|---|---|
| User-agent | Define el robot que sigue el bloque de reglas. El asterisco vale para todos. | User-agent: * |
| Disallow | Bloquea el rastreo de una ruta o carpeta. | Disallow: /admin/ |
| Allow | Abre una ruta dentro de una carpeta bloqueada. | Allow: /admin/publico/ |
| Sitemap | Indica la URL completa del mapa del sitio. | Sitemap: https://tusitio.com/sitemap.xml |
| * (comodín) | Sustituye cualquier secuencia de caracteres en una ruta. | Disallow: /*?color= |
| $ (fin de URL) | Marca el final exacto de la URL. | Disallow: /*.pdf$ |
| Disallow: / | Bloquea todo el sitio de una vez. | Disallow: / |
Los comodines * y $
El asterisco (*) representa cualquier secuencia de caracteres, así que Disallow: /*.pdf$ bloquea todos los PDF del sitio. El signo de dólar ($) marca el final de la URL y evita que bloquees direcciones parecidas por error. Ambos funcionan en Google y Bing, pero no todos los robots entienden comodines, así que úsalos con cuidado.
Dónde colocar el archivo
Guarda el resultado con el nombre robots.txt y súbelo a la carpeta principal del servidor, de modo que abra en https://tusitio.com/robots.txt. Para probarlo, basta con escribir esa dirección en el navegador. Google también ofrece un informe de robots.txt en Search Console que muestra la última versión que leyó y avisa de los errores.
Bloquear rastreo vs bloquear indexación
Este es el error de SEO más común con el robots.txt. Bloquear una página en el robots.txt detiene el rastreo, pero no la quita del índice de Google. Si otros sitios la enlazan, la dirección puede aparecer en la búsqueda sin título ni descripción. Para sacar una página de los resultados, deja que se rastree y usa la etiqueta <meta name='robots' content='noindex'> en el HTML. El robots.txt controla quién entra; el noindex controla qué permanece en el índice.
Errores comunes que perjudican el SEO
- Bloquear todo el sitio sin querer: una línea Disallow: / olvidada del entorno de pruebas impide que Google rastree cualquier página.
- Bloquear CSS y JavaScript: Google necesita esos archivos para renderizar la página. Cerrar /assets/ o /js/ puede hacer que vea un diseño roto.
- Usar el robots.txt para ocultar contenido: las páginas bloqueadas siguen apareciendo en la búsqueda si tienen enlaces. Para eso existe la etiqueta noindex.
- Equivocarte con mayúsculas y minúsculas: las rutas distinguen capitalización, así que /Admin y /admin se tratan como direcciones distintas.
- Olvidar la línea Sitemap: incluir el Sitemap ayuda a los robots a encontrar todas las URL que quieres indexar.
Cómo controlar los bots de IA
Los robots de IA también respetan el robots.txt. Tú decides si tu contenido alimenta modelos como ChatGPT, Claude y Gemini o aparece en sus respuestas. Cada empresa usa su propio User-agent, y bloqueas o permites cada uno igual que a cualquier otro robot.
| Bot | Empresa | Para qué sirve |
|---|---|---|
| GPTBot | OpenAI | Recoge páginas para entrenar los modelos de ChatGPT. |
| OAI-SearchBot | OpenAI | Indexa contenido que puede aparecer en las búsquedas de ChatGPT. |
| ChatGPT-User | OpenAI | Accede a una página cuando un usuario lo pide en ChatGPT. |
| ClaudeBot | Anthropic | Recoge contenido para entrenar a Claude. |
| Google-Extended | Controla el uso de tu contenido en Gemini y la IA de Google. | |
| PerplexityBot | Perplexity | Indexa páginas para responder dentro de Perplexity. |
| CCBot | Common Crawl | Base pública usada por muchos modelos de IA. |
Para bloquear cualquiera de ellos, escribe un bloque con el User-agent del robot y la línea Disallow: /. Por ejemplo, User-agent: GPTBot seguido de Disallow: / pide al robot de OpenAI que no recoja ninguna página. Ten en cuenta que esto es una petición: los robots que se portan bien la obedecen, pero el bloqueo no funciona como barrera técnica.
Preguntas comunes sobre el robots.txt
¿El generador de robots.txt es gratis?
Sí. Es 100% gratis, sin registro y sin límite de uso. El archivo se crea en tu navegador.
¿Dónde pongo el archivo generado?
En la raíz del dominio, de modo que abra en https://tusitio.com/robots.txt. Solo guárdalo como robots.txt y súbelo a tu servidor.
¿Cómo bloqueo todo el sitio?
Usa el modo Bloquear todo, que genera User-agent: * y Disallow: /. Esto pide a los robots que no rastreen ninguna página.
¿Necesito un robots.txt para mi sitio?
No es obligatorio. Sin él, los robots rastrean todo. Conviene cuando quieres bloquear áreas específicas o apuntar al sitemap.
¿El robots.txt oculta una página de la búsqueda?
No de forma segura. Bloquea el rastreo, pero la página aún puede aparecer si hay enlaces. Para quitarla, usa la meta etiqueta noindex.
¿Cómo impido que bots de IA como GPTBot usen mi contenido?
Añade un bloque con el User-agent del robot (por ejemplo GPTBot) seguido de la línea Disallow: /. Los principales robots de IA, como GPTBot, ClaudeBot y Google-Extended, respetan el robots.txt.
¿Quieres un blog que se escribe y se optimiza solo?
Automarticles crea tu blog completo, con contenido optimizado para Google y para ser citado por IAs como ChatGPT. Sin trabajo manual.