Robots.txt测试器 - 检查爬虫访问规则
测试robots.txt规则,查看特定User-Agent是否被允许或禁止抓取某个URL。
使用说明
- 将您的robots.txt内容粘贴到第一个文本区域。
- 输入要测试的User-Agent名称(如'Googlebot'、'Bingbot','*'表示所有)。
- 输入要测试爬虫访问权限的完整URL。
- 点击"测试"查看指定爬虫是否被允许或禁止访问该URL。
- 结果显示访问决定(允许/禁止)以及匹配的具体规则。
关于Robots.txt
Robots.txt的工作原理
robots.txt文件是网站用于向Web爬虫传达哪些页面不应被抓取或索引的标准。它必须放置在网站的根目录中(如https://example.com/robots.txt)。每个部分以'User-agent:'开头,后跟规则。通配符'*'适用于所有爬虫。爬虫在抓取网站上的任何页面之前都会检查此文件。
Allow与Disallow规则
Disallow规则阻止爬虫访问匹配的路径。Allow规则明确允许访问,覆盖更通用的Disallow规则。当多条规则匹配一个URL时,最具体的规则(最长匹配)获胜。例如,'Disallow: /private/'阻止所有以/private/开头的路径,但'Allow: /private/public.html'将允许那个特定页面,即使其父目录被禁止。
常见Robots.txt模式
常见的robots.txt模式包括:阻止所有爬虫('User-agent: * / Disallow: /')、仅阻止Googlebot('User-agent: Googlebot / Disallow: /')、阻止特定目录('Disallow: /admin/')、阻止URL参数('Disallow: /*?*'),以及包含Sitemap指令('Sitemap: https://example.com/sitemap.xml')。Sitemap指令帮助搜索引擎自动找到您的站点地图。
Robots.txt的局限性
Robots.txt阻止抓取,但不能阻止索引。如果其他页面链接到某个页面,即使它在robots.txt中被阻止,也可能被索引。要阻止索引,请改用'noindex' Meta标签或X-Robots-Tag HTTP头。另外请注意,robots.txt是一个自愿标准——恶意爬虫可能会忽略它。永远不要使用robots.txt来隐藏敏感内容;请使用适当的身份验证代替。
主要特性
- 解析任何User-Agent(包括通配符)的robots.txt规则
- 根据Allow和Disallow指令测试特定URL路径
- 显示决定访问权限的匹配规则
- 处理规则优先级:最具体(最长)的规则获胜
常见应用场景
- 更新robots.txt后验证Googlebot是否可以访问重要页面
- 排查某些页面未被搜索引擎索引的原因
- 在部署到生产环境前测试robots.txt规则更改
- 确认敏感目录已被所有爬虫正确屏蔽