Robots.txt测试器 - 检查爬虫访问规则

测试robots.txt规则，查看特定User-Agent是否被允许或禁止抓取某个URL。

Robots.txt内容

要测试的User-Agent

要测试的URL

使用说明

将您的robots.txt内容粘贴到第一个文本区域。
输入要测试的User-Agent名称（如'Googlebot'、'Bingbot'，'*'表示所有）。
输入要测试爬虫访问权限的完整URL。
点击"测试"查看指定爬虫是否被允许或禁止访问该URL。
结果显示访问决定（允许/禁止）以及匹配的具体规则。

关于Robots.txt

Robots.txt的工作原理

robots.txt文件是网站用于向Web爬虫传达哪些页面不应被抓取或索引的标准。它必须放置在网站的根目录中（如https://example.com/robots.txt）。每个部分以'User-agent:'开头，后跟规则。通配符'*'适用于所有爬虫。爬虫在抓取网站上的任何页面之前都会检查此文件。

Allow与Disallow规则

Disallow规则阻止爬虫访问匹配的路径。Allow规则明确允许访问，覆盖更通用的Disallow规则。当多条规则匹配一个URL时，最具体的规则（最长匹配）获胜。例如，'Disallow: /private/'阻止所有以/private/开头的路径，但'Allow: /private/public.html'将允许那个特定页面，即使其父目录被禁止。

常见Robots.txt模式

常见的robots.txt模式包括：阻止所有爬虫（'User-agent: * / Disallow: /'）、仅阻止Googlebot（'User-agent: Googlebot / Disallow: /'）、阻止特定目录（'Disallow: /admin/'）、阻止URL参数（'Disallow: /*?*'），以及包含Sitemap指令（'Sitemap: https://example.com/sitemap.xml'）。Sitemap指令帮助搜索引擎自动找到您的站点地图。

Robots.txt的局限性

Robots.txt阻止抓取，但不能阻止索引。如果其他页面链接到某个页面，即使它在robots.txt中被阻止，也可能被索引。要阻止索引，请改用'noindex' Meta标签或X-Robots-Tag HTTP头。另外请注意，robots.txt是一个自愿标准——恶意爬虫可能会忽略它。永远不要使用robots.txt来隐藏敏感内容；请使用适当的身份验证代替。

主要特性

解析任何User-Agent（包括通配符）的robots.txt规则
根据Allow和Disallow指令测试特定URL路径
显示决定访问权限的匹配规则
处理规则优先级：最具体（最长）的规则获胜

常见应用场景

更新robots.txt后验证Googlebot是否可以访问重要页面
排查某些页面未被搜索引擎索引的原因
在部署到生产环境前测试robots.txt规则更改
确认敏感目录已被所有爬虫正确屏蔽

在线计算工具箱