5357cc拉斯维加斯(中国)股份有限公司

屏蔽蜘蛛抓取的几种方法

日期：2012-05-21 12:06 /人气：463 /来源：互联网

　普通状况下，网站树立并运营之后老是但愿被搜刮引擎收录的数目越多越好。但这只是凡是状况下，年夜局部人所但愿的。有些时分，我们仍是会但愿搜刮引擎蜘蛛不要拜访网站的某些文件夹，当然也有不但愿搜刮引擎收录的页面。

　　比方说，网站方才树立并没有真正投入运营，还没有本质性的内容时;还有过多的收录页面招致网站权重的分离，而恰好你想要靠拢权重到某些个最主要的页面时;再比方树立一个镜像网站，并次要经过其他的推行手腕(这里指除了SEO以外的推行办法)对网站停止运营时……

屏障蜘蛛抓取的几种办法

　　而搜刮引擎收录网站页面是需求经过蜘蛛拜访网站，并对页面内容停止抓取。所以凡是状况下，想要阻止搜刮引擎的收录就需求限制、屏障蜘蛛的拜访与抓取。上面笔者引见几种常用的屏障蜘蛛抓取的办法。

　　1.robots.txt法则文件。

　　大师都晓得robots.txt是指引搜刮引擎蜘蛛对该网站拜访与否的法则，平常运用的也比拟多。普通的建议是不管网站能否有需求屏障收录的内容，都要在根目次下树立robots.txt文件。

　　robots.txt文件法则的写法很复杂，比方需求屏障某一个搜刮引擎的蜘蛛拜访一切目次，就如许写：

　　User-agent:Googlebot

　　Disallow:/

　　再比方制止一切蜘蛛拜访、抓取某一个目次则：

　　User-agent:*

　　Disallow:/admin/

　　假如说robots.txt是一个放在网站中的法则文件，那robots Meta就是放在某个网页中的标签。两者的实践功用是年夜致相反的，但robots.txt是年夜局部搜刮引擎都撑持的体例，然后者倒是年夜局部搜刮引擎都不撑持的。别的比拟较下，robots Meta用来对某几个页面独自设置时运用。

　　robots Meta标签必需寄存在“…”代码之内：

　　…

　　此中“index”指的是索引，“follow”指的是跟踪链接并传递响应的权重。当然响应的还有“noindex”和“nofollow”，功用则正好相反。

　　3.效劳器设置装备摆设文件。

　　这种办法是最不罕见的屏障蜘蛛的办法，次要用于屏障那些“不遵守”robots.txt法则的蜘蛛。

　　办法就是一段工夫的剖析网站日记，发现需求屏障的蜘蛛以及它的ip。然后经过效劳器的设置装备摆设文件将其屏障，从而完成屏障某一个蜘蛛抓取网站。当然这种办法运用起来并不灵敏，比方不克不及屏障蜘蛛独自对某一个文件夹(或网页)的抓取。

　　因效劳器及其零碎的分歧，详细还请拜见相关设置办法。

　　除以上提到的三种屏障蜘蛛抓取的办法以外，应该是有其他的办法可以到达屏障蜘蛛抓取的目标，欢送列位高手在空闲之时予以弥补。

　　但就以上三种办法而言，第一种robots.txt法则文件的运用更为普遍。

作者：

上一篇：新手站长必看网站降权等级分析 ← 下一篇：SEO新人发外链时候的误区 →