Verificador de robots.txt
Pega la URL del sitio y mira su robots.txt analizado: grupos de User-agent, reglas de bloqueo, Sitemaps y alertas. En tu navegador, sin registro.
Cómo leer y verificar el robots.txt
El robots.txt es un archivo de texto en la raíz del sitio, en tusitio.com/robots.txt, que les dice a los robots de búsqueda qué partes del sitio pueden rastrear. Un error simple en este archivo tumba el rastreo del sitio entero, así que conviene revisarlo de vez en cuando.
Cómo leer el robots.txt línea por línea
El archivo se organiza en grupos. Cada grupo empieza con un User-agent (el robot al que se aplican las reglas) y lista las directivas debajo. Las más usadas son Disallow (ruta que el robot no debe rastrear) y Allow (excepción que libera una ruta dentro de un bloqueo).
- User-agent: * aplica las reglas a todos los robots. También puedes apuntar a uno específico, como
Googlebot. - Disallow: /admin/ pide no rastrear nada dentro de
/admin/. - Disallow: en blanco libera todo el sitio para ese grupo.
- Sitemap: apunta a la URL completa de tu sitemap para ayudar al buscador a encontrar tus páginas.
Principales directivas y qué hacen
| Directiva | Ejemplo | Qué hace |
|---|---|---|
| User-agent | User-agent: * | Define a qué robot se aplica el grupo de reglas |
| Disallow | Disallow: /carrito/ | Pide al robot no rastrear esa ruta |
| Allow | Allow: /blog/ | Libera una ruta dentro de un área bloqueada |
| Sitemap | Sitemap: https://tusitio.com/sitemap.xml | Indica dónde está el sitemap del sitio |
Errores comunes en el robots.txt
| Error | Efecto |
|---|---|
| Disallow: / para User-agent: * | Bloquea el sitio entero para los buscadores |
| robots.txt ausente | Google rastrea todo por defecto, sin tu orientación |
| Sin línea Sitemap | Pierdes una pista fácil que acelera el descubrimiento de páginas |
| Bloquear CSS y JS | Google puede renderizar la página de forma incompleta |
| Sitemap con URL relativa | La línea Sitemap exige la URL completa para leerse |
Bloquear rastreo y bloquear indexación
Son cosas distintas. El Disallow en robots.txt pide al robot no rastrear la página. Para sacar una página del índice de Google, usa la meta etiqueta noindex en el <head> de la propia página. Detalle importante: una página bloqueada en robots.txt puede seguir apareciendo en la búsqueda, porque Google nunca llega a leer su noindex. Para quitarla del índice, libera el rastreo y usa noindex.
Preguntas sobre robots.txt
¿El verificador es gratis?
Sí, gratis y sin registro. Pegas la URL del sitio y recibes el análisis del robots.txt al instante.
¿Dónde está el robots.txt de un sitio?
Siempre en la raíz del dominio, en tusitio.com/robots.txt. La herramienta deriva la origen de la URL que pegues y busca ese archivo automáticamente.
¿Qué significa Disallow: / ?
Es la regla que bloquea el sitio entero para el robot de ese grupo. Cuando aparece para User-agent: *, ningún buscador rastrea el sitio, así que la herramienta lo destaca en rojo.
¿El robots.txt impide la indexación en Google?
No directamente. Controla el rastreo. Para sacar una página del índice, usa la meta etiqueta noindex en la página y mantén el rastreo abierto para que Google pueda leerla.
¿Necesito declarar el Sitemap en el robots.txt?
No es obligatorio, pero ayuda mucho. La línea Sitemap le indica al buscador dónde están tus páginas y acelera el descubrimiento. La herramienta avisa cuando falta.
¿Se guardan mis datos?
La verificación corre bajo demanda y el contenido del robots.txt no se almacena.
¿Quieres un blog que ya nace con el SEO técnico correcto?
Automarticles crea tu blog completo, con robots.txt, sitemap, canonical y contenido optimizados para Google y para ser citado por IAs como ChatGPT. Sin trabajo manual.