🤖 robots.txt 生成器
可视化创建网站的爬虫访问规则
Ad Space
📜 规则列表
0 条规则+ 添加新规则
📋 生成的robots.txt代码
Ad Space
Frequently Asked Questions
什么是robots.txt?
▼
robots.txt是网站根目录下的一个纯文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不应该抓取。它是网站与搜索引擎之间的"访问协议",但不是强制性的安全措施。
robots.txt应该放在哪里?
▼
robots.txt必须放在网站的根目录下,文件名必须是小写的"robots.txt"。例如:https://example.com/robots.txt。放在子目录中是无效的。
Disallow和Allow的优先级是什么?
▼
默认情况下,如果同时有Allow和Disallow规则匹配同一路径,搜索引擎会选择更具体的规则。通常较长的路径规则优先于较短的路径规则。使用通配符时,爬虫会选择匹配度更高的规则。
常用路径规则有哪些?
▼
/admin/ - 禁止访问管理后台
/private/ - 禁止访问私有目录
/*.php$ - 禁止访问所有PHP文件
/api/* - 禁止访问API接口
/checkout/ - 禁止访问结账页面
/cart/ - 禁止访问购物车
/private/ - 禁止访问私有目录
/*.php$ - 禁止访问所有PHP文件
/api/* - 禁止访问API接口
/checkout/ - 禁止访问结账页面
/cart/ - 禁止访问购物车
如何验证robots.txt是否正确?
▼
可以使用各大搜索引擎的站长工具来测试:Google Search Console的robots.txt测试工具、Bing Webmaster Tools等。这些工具可以帮助您检查语法错误并模拟爬虫抓取效果。