之前遇到的一个问题,由于特殊的业务需求,几个二级域名不想让搜索引擎的蜘蛛进行抓取,另外这几个二级域名不需要任何权限也能浏览,总之是很奇怪的需求。后研究了下,要想让二级域名禁止百度等搜索引擎蜘蛛的抓取,可以利用robots协议来实现。
这里要注意的是robots.txt是有局限的,并没办法指哪打哪,也就是没办法让你想让哪个二级域名不被抓取就能设置哪个域名。
首先robots.txt文件必须放在网站根目录下,协议是针对网站目录而不是域名。所以二级域名的网站文件如果没放在单独的文件夹中,那么不适合使用robots.txt文件来禁止爬虫抓取。
如果二级域名网站所在的文件夹还同时绑定了其他顶级域名,使用robots协议可能导致所有绑定到此文件的域名都不会被搜索引擎蜘蛛抓取。
在robots.txt中禁用所有爬虫抓取所有路径的语法如下:
User-agent: *
Disallow: /
作者:十有三
出处:https://shiyousan.com/post/636046038396304849
版权声明:本文采用知识共享许可协议:署名-相同方式共享 4.0 国际(CC BY-SA 4.0)。欢迎转载本文,转载请声明出处或保留此段声明。