✨ Consigue 25% OFFen cualquier plan. Usa el cupón:

PerplexityBot: qué es el crawler de Perplexity y cómo controlar el rastreo del sitio

Por Tiago CostaActualizado el 2 de julio de 2026

Ilustración de un robot con lupa leyendo páginas y armando una respuesta con citas numeradas, que representa el PerplexityBot.
Definición

PerplexityBot es el rastreador de Perplexity, el buscador con IA que responde preguntas citando fuentes. En la práctica, PerplexityBot:

  • visita páginas públicas y las indexa para su consulta;
  • ayuda a Perplexity a armar respuestas con enlaces a los orígenes;
  • se identifica con el user-agent PerplexityBot en los registros del servidor;
  • debe respetar el robots.txt, que es donde permites o bloqueas el acceso.

Qué es el PerplexityBot

El PerplexityBot es el rastreador automatizado de Perplexity, una herramienta que mezcla búsqueda e inteligencia artificial para responder preguntas en lenguaje natural, siempre con enlaces a las fuentes. Para que esa respuesta con citas exista, Perplexity necesita antes conocer el contenido de la web, y ahí entra el bot.

Como todo crawler, el PerplexityBot recorre páginas públicas, lee el texto y lo guarda en un índice. La diferencia frente a un rastreador de entrenamiento puro está en el uso: el material sirve para que Perplexity encuentre y cite información actual al responder, no solo para entrenar un modelo de una vez. Por eso el PerplexityBot valora el contenido fresco y bien estructurado.

Para quien publica en la web, esto cambia la lógica de la decisión. Bloquear el PerplexityBot protege el contenido, pero también saca tu sitio de la lista de fuentes que Perplexity puede citar, con enlaces que traen visitas de vuelta.

PerplexityBot y Perplexity-User: dos agentes, dos propósitos

Un detalle que confunde a mucha gente es que Perplexity opera más de un agente, y cada uno se comporta de un modo. Entender la diferencia es esencial para escribir reglas que hagan lo que esperas:

  • PerplexityBot: el rastreador que indexa la web de forma sistemática para abastecer el índice del buscador. Es el que controlas en el robots.txt.
  • Perplexity-User: lanza una visita a una página concreta cuando un usuario hace una pregunta que exige revisar esa dirección en tiempo real. Al actuar a pedido de una persona, Perplexity trata ese acceso de forma distinta al rastreo masivo.

Esta distinción tiene consecuencias prácticas. Una regla que frena al PerplexityBot puede no afectar al agente que busca a pedido del usuario, lo que suele ser fuente de malentendidos sobre bloqueos que parecen no funcionar.

Infografía del ciclo del PerplexityBot: rastrear, indexar, pregunta, respuesta con fuentes y clic de vuelta a la página original.
Cómo el PerplexityBot se vuelve respuesta: de la indexación de la página a la cita con enlace de vuelta a la fuente.

Cuál es el user-agent del PerplexityBot

En los registros (logs) de tu servidor, el rastreador de Perplexity aparece con un user-agent que contiene la palabra PerplexityBot, en un formato parecido a PerplexityBot/1.0 acompañado de una dirección de contacto de Perplexity. El agente lanzado por usuario aparece con el identificador Perplexity-User.

Saber leer ese identificador es el primer paso para monitorear cuánto rastrea Perplexity tu sitio y para confirmar si un acceso es realmente suyo. Recuerda que el user-agent es solo un texto declarado por el propio visitante, así que puede copiarse. La confirmación sólida viene de cruzar el nombre con los rangos de IP oficiales y con el comportamiento del acceso, y no solo de la línea que aparece en el log.

Cómo permitir o bloquear el PerplexityBot en robots.txt

El punto de control principal es el archivo de robots.txt, en la raíz del sitio. Para bloquear el rastreo del PerplexityBot, usa:

  • User-agent: PerplexityBot
  • Disallow: /

Para permitirlo, basta con no bloquear, o usar Allow: /. Si también quieres frenar el agente lanzado por usuario, necesitas una regla específica para el Perplexity-User, sabiendo que Perplexity sostiene que las búsquedas hechas a pedido de una persona funcionan como un navegador que actúa por ella.

Aquí hay un aviso importante: el robots.txt depende de la buena voluntad del bot. Y, en el caso de Perplexity, esa buena voluntad fue puesta en duda, como muestra la siguiente sección. Para contenido que de verdad necesitas proteger, el robots.txt por sí solo puede no bastar.

La polémica del rastreo furtivo de Perplexity

No todo el rastreo de Perplexity ocurrió a la luz del día. En 2025, Cloudflare publicó una investigación afirmando que, cuando los bots declarados de Perplexity encontraban bloqueos, la empresa recurría a rastreadores no declarados que se disfrazaban de un navegador Chrome común para acceder a contenido de sitios que habían pedido no ser rastreados. Según Cloudflare, este comportamiento se observó en decenas de miles de dominios y llegaba a millones de peticiones por día.

Cloudflare relató haber creado dominios nuevos y no divulgados, configurados para negar el acceso a todos los bots, y aun así Perplexity habría conseguido recuperar y mostrar el contenido de esos sitios de prueba. En respuesta, Perplexity cuestionó la acusación, alegando que parte del tráfico atribuido a él venía de un servicio de terceros y que sus búsquedas a pedido de usuario actúan como un navegador, no como un raspador de entrenamiento.

Al margen de cómo termine el debate, la lección para quien tiene un sitio es clara: el robots.txt es una orientación, no una barrera física. Si el objetivo es impedir el acceso de verdad, y no solo señalar la preferencia, hace falta refuerzo técnico en el servidor o en un firewall de aplicación.

Ilustración de un robot disfrazado de navegador colándose por una verja prohibida e ignorando un robots.txt, que representa el rastreo furtivo atribuido a Perplexity.

PerplexityBot y GEO: convertirse en una fuente citada

Desde el punto de vista del GEO (Generative Engine Optimization), Perplexity es uno de los objetivos más interesantes, justamente porque cita y enlaza las fuentes de las respuestas. Cada cita es una oportunidad real de aparecer ante el usuario y de recibir un clic de vuelta, algo que no todo asistente de IA ofrece.

Para ser candidato a ese tipo de cita por IA, el camino empieza por permitir el PerplexityBot y seguir las buenas prácticas de contenido para motores de respuesta: responder la pregunta de forma directa al inicio, respaldar las afirmaciones con datos y fuentes, y organizar el texto en bloques fáciles de extraer. El contenido actual y específico tiende a ser preferido, ya que Perplexity se centra en responder con información reciente.

Como señal complementaria, el archivo de llms.txt viene siendo adoptado para indicar a los modelos qué contenido del sitio priorizar. No obliga a nada, pero ayuda a comunicar organización e intención a quien quiere ser bien representado en las respuestas de IA, en vez de simplemente desaparecer de ellas.

Preguntas frecuentes

Preguntas frecuentes

¿Qué es el PerplexityBot?

El PerplexityBot es el rastreador (crawler) de Perplexity, el buscador con IA que responde preguntas citando fuentes. Indexa páginas públicas para abastecer el índice que Perplexity consulta al armar respuestas. Se identifica con el user-agent PerplexityBot y debe respetar el robots.txt.

¿Cómo bloquear el PerplexityBot?

En el robots.txt, usa User-agent: PerplexityBot y Disallow: / para frenar el rastreo. Para el agente lanzado por usuario, crea una regla para el Perplexity-User. Como hubo reportes de rastreo furtivo, el contenido sensible pide refuerzo en el servidor o en un firewall.

¿Perplexity es gratis?

Perplexity tiene una versión gratuita con funciones básicas de búsqueda y respuesta, además de un plan de pago con modelos más avanzados y límites mayores. Conviene distinguir: Perplexity es el producto que usas; el PerplexityBot es el robot que rastrea la web para alimentar ese producto.

¿Qué es mejor, ChatGPT o Perplexity?

Depende del uso. Perplexity se centra en responder preguntas con fuentes citadas y enlaces, lo que ayuda a verificar la información. ChatGPT es un asistente más amplio, con fuerte capacidad de conversación y escritura. Para investigar con referencias rastreables, Perplexity suele gustar.

¿Cuánto cuesta Perplexity Pro?

Perplexity Pro es el plan de pago de Perplexity, con un precio en torno a los 20 dólares al mes (o una cuota anual equivalente con descuento). Han existido promociones de acceso gratuito por un periodo vía alianzas, pero los valores cambian, así que confirma siempre la tabla oficial.

Sé la fuente que la IA cita y enlaza

Automarticles crea y optimiza los artículos de tu blog por sí sola, con respuestas objetivas y fuentes claras que aumentan la posibilidad de ser citado por buscadores de IA como Perplexity.

Empezar prueba gratis
Sigue aprendiendo

Conceptos relacionados

ClaudeBotClaudeBot es el rastreador (crawler) de Anthropic, la empresa detrás del asistente de IA Claude. Recorre páginas públicas de la web para recopilar contenido que ayuda a entrenar y alimentar los modelos Claude. Igual que hace Googlebot con la búsqueda, ClaudeBot se identifica con un user-agent propio, respeta el archivo robots.txt y puede ser permitido o bloqueado por cualquier sitio. Decidir qué hacer con él ya es parte de la estrategia de quien quiere, o no quiere, aparecer en las respuestas de IA.OAI-SearchBotOAI-SearchBot es el rastreador (crawler) que OpenAI usa para alimentar la búsqueda de ChatGPT, es decir, para descubrir e indexar páginas que pueden convertirse en fuente citada en las respuestas con búsqueda en tiempo real. Es distinto del GPTBot, que recopila contenido para entrenar los modelos, y del ChatGPT-User, que actúa cuando el usuario pide una acción. Entender esta separación es lo que permite aparecer en la búsqueda de ChatGPT sin necesariamente liberar tu contenido para el entrenamiento.Answer engineAnswer engine, o motor de respuesta, es cualquier sistema de búsqueda que devuelve una respuesta directa y ya sintetizada en lugar de una lista de enlaces azules. En vez de hacer que la persona haga clic en varios resultados, lee varias fuentes, resume y entrega la respuesta lista ahí mismo. En esta categoría entran los AI Overviews de Google, asistentes de IA como ChatGPT, Perplexity y Gemini, los asistentes de voz e incluso los featured snippets tradicionales. Es el cambio que hace evolucionar el SEO hacia convertirse en fuente citada, no solo en enlace clicado.Robots.txtRobots.txt es un archivo de texto simple, guardado en la raíz del dominio, que indica a los rastreadores de los buscadores qué partes de un sitio pueden o no rastrear. Sigue el Protocolo de Exclusión de Robots y controla el rastreo, no la indexación, por lo que no es la herramienta adecuada para ocultar una página de los resultados de búsqueda.