Probador de Robots.txt - Verificar Reglas de Acceso de Crawlers

Prueba las reglas de robots.txt para ver si un user-agent específico tiene permitido o bloqueado el acceso a una URL.

Cómo Usar

  • Pega el contenido de tu robots.txt en el primer área de texto.
  • Ingresa el nombre del user-agent que quieres probar (p. ej., 'Googlebot', 'Bingbot', '*' para todos).
  • Ingresa la URL completa que quieres probar para acceso del crawler.
  • Haz clic en 'Probar' para ver si el crawler especificado tiene permitido o bloqueado el acceso a la URL.
  • El resultado muestra la decisión de acceso (Permitido/No Permitido) y la regla específica que coincidió.

Acerca de Robots.txt

Cómo Funciona Robots.txt

El archivo robots.txt es un estándar utilizado por los sitios web para comunicarse con los rastreadores web sobre qué páginas no deben rastrearse ni indexarse. Debe colocarse en el directorio raíz de tu sitio web (p. ej., https://example.com/robots.txt). Cada sección comienza con 'User-agent:' seguido de reglas. El comodín '*' se aplica a todos los rastreadores. Los rastreadores verifican este archivo antes de rastrear cualquier página de tu sitio.

Reglas Allow vs Disallow

Las reglas Disallow bloquean a los rastreadores el acceso a rutas coincidentes. Las reglas Allow permiten explícitamente el acceso, anulando las reglas Disallow más generales. Cuando múltiples reglas coinciden con una URL, gana la regla más específica (coincidencia más larga). Por ejemplo, 'Disallow: /privado/' bloquea todas las rutas que comienzan con /privado/, pero 'Allow: /privado/publico.html' permitiría esa página específica.

Patrones Comunes de Robots.txt

Los patrones comunes de robots.txt incluyen: bloquear todos los rastreadores ('User-agent: * / Disallow: /'), bloquear solo Googlebot ('User-agent: Googlebot / Disallow: /'), bloquear directorios específicos ('Disallow: /admin/'), bloquear parámetros URL ('Disallow: /*?*'), e incluir una directiva Sitemap ('Sitemap: https://example.com/sitemap.xml'). La directiva Sitemap ayuda a los motores de búsqueda a encontrar tu sitemap automáticamente.

Limitaciones de Robots.txt

Robots.txt previene el rastreo pero NO previene la indexación. Una página puede indexarse incluso si está bloqueada en robots.txt si otras páginas enlazan a ella. Para prevenir la indexación, usa la meta etiqueta 'noindex' o el encabezado HTTP X-Robots-Tag. También ten en cuenta que robots.txt es un estándar voluntario — los bots maliciosos pueden ignorarlo. Nunca uses robots.txt para ocultar contenido sensible; usa autenticación adecuada.

Características Principales

  • Analiza reglas robots.txt para cualquier user-agent incluyendo comodines
  • Prueba rutas URL específicas contra directivas Allow y Disallow
  • Muestra la regla coincidente que determinó la decisión de acceso
  • Maneja la precedencia de reglas: la regla más específica (más larga) gana

Aplicaciones Comunes

  • Verificar que Googlebot puede acceder a páginas importantes después de actualizar robots.txt
  • Depurar por qué ciertas páginas no están siendo indexadas por los motores de búsqueda
  • Probar cambios de reglas robots.txt antes de implementarlos en producción
  • Confirmar que los directorios sensibles están correctamente bloqueados para todos los rastreadores