
日期:2012-05-21 12:06 /人气:355 /来源:互联网
普通状况下,网站树立并运营之后老是 但愿 被搜刮 引擎收录的数目 越多越好。但这只是凡是 状况下,年夜 局部人所但愿 的。有些时分,我们仍是 会但愿 搜刮 引擎蜘蛛不要拜访网站的某些文件夹,当然也有不但愿 搜刮 引擎收录的页面。
比方说,网站方才 树立并没有真正投入运营,还没有本质性的内容时;还有过多的收录页面招致网站权重的分离 ,而恰好 你想要靠拢权重到某些个最主要 的页面时;再比方树立一个镜像网站,并次要经过其他的推行手腕(这里指除了SEO以外的推行办法)对网站停止运营时……

而搜刮 引擎收录网站页面是需求经过蜘蛛拜访网站,并对页面内容停止抓取。所以凡是 状况下,想要阻止搜刮 引擎的收录就需求限制、屏障蜘蛛的拜访与抓取。上面笔者引见几种常用的屏障 蜘蛛抓取的办法。
1.robots.txt法则 文件。
大师 都晓得robots.txt是指引搜刮 引擎蜘蛛对该网站拜访与否的法则 ,平常运用的也比拟多。普通的建议是不管网站能否有需求屏障 收录的内容,都要在根目次 下树立robots.txt文件。
robots.txt文件法则 的写法很复杂,比方需求屏障 某一个搜刮 引擎的蜘蛛拜访一切目次 ,就如许 写:
User-agent:Googlebot
Disallow:/
再比方制止一切蜘蛛拜访、抓取某一个目次 则:
User-agent:*
Disallow:/admin/
假如说robots.txt是一个放在网站中的法则 文件,那robots Meta就是放在某个网页中的标签。两者的实践功用是年夜 致相反的,但robots.txt是年夜 局部搜刮 引擎都撑持 的体例 ,然后者倒是 年夜 局部搜刮 引擎都不撑持 的。别的 比拟 较下,robots Meta用来对某几个页面独自设置时运用。
robots Meta标签必需寄存在“…”代码之内:
…
此中“index”指的是索引,“follow”指的是跟踪链接并传递响应 的权重。当然响应 的还有“noindex”和“nofollow”,功用则正好相反。
3.效劳器设置装备摆设 文件。
这种办法是最不罕见的屏障 蜘蛛的办法,次要用于屏障 那些“不遵守”robots.txt法则 的蜘蛛。
办法就是一段工夫的剖析网站日记 ,发现需求屏障 的蜘蛛以及它的ip。然后经过效劳器的设置装备摆设 文件将其屏障 ,从而完成屏障 某一个蜘蛛抓取网站。当然这种办法运用起来并不灵敏,比方不克不及 屏障 蜘蛛独自对某一个文件夹(或网页)的抓取。
因效劳器及其零碎的分歧 ,详细还请拜见 相关设置办法。
除以上提到的三种屏障 蜘蛛抓取的办法以外,应该是有其他的办法可以到达屏障 蜘蛛抓取的目标 ,欢送列位 高手在空闲之时予以弥补 。
但就以上三种办法而言,第一种robots.txt法则 文件的运用更为普遍。
南京网站建设 南京网页设计 南京建站 南京SEO推广 南京广告设计 画册设计
作者: