学习robots的一些限制技巧

快速复习

在我们进入主题之前,让我们看一下那些主流的robots的一些限制技巧吧: 

元机器人标签 

元机器人标签(Meta Robots Tag)为搜索引擎机器人建立页面等级说明。元机器人标签应放在HTML文件的头部。

规范标签(canonical tag) 

规范标签(canonical tag)是一个位于网页HTML头部的页面等级的元标签。它告诉搜索引擎哪一个URL的显示是规范的。它的目的是不让搜索引擎抓取重复内容,同时将重复页面的权重集中在规范的那一个页面上。 

代码是这样的:

<link rel="canonical" href="http://example.com/quality-wrenches.htm"/> 

X机器人标签 

自2007年以来,谷歌和其他搜索引擎已经支持把X-Robots-Tag作为一种方法来告诉蜘蛛爬行和索引的优先顺序,X-Robots-Tag位于HTTP头部,曾用于通知蜘蛛爬行和索引文件而用。该标签对控制那些非HTML文件的索引是很有用的,如PDF文件。 

机器人标签

robots.txt允许一些搜索引擎进入网站内部,但是它并不能保证具体某个页面会不会被抓取和索引。除非出于SEO的原因,否则只有当确实有必要或者在站点上有需要屏蔽的robots时robots.txt才确实值得使用。我总是推荐使用元数据标签“noindex”来代替它。 

避免冲突

同时利用两种方法来限制robot入口是不明智的:

· Meta Robots ‘noindex' (元机器人标签“noindex”)

· Canonical Tag (when pointing to a different URL) (标准标签)

· Robots.txt Disallow 

· X-Robots-Tag(x机器人标签) 

尽管你很想去保持页面的搜索结果,但是一个办法总是比两个好。让我们来看看当在一个单一的URL中有很多robots路径控制技术时会发生什么。 

Meta Robots 'noindex' 和 Canonical标签 

如果你的目标是一个URL的权重传递给另一个URL,而你却没有其他的更好办法的时候,那就只能用Canonical标签。不要用元机器人标签的“noindex”来给自己添麻烦。如果你使用两个robot的方法,搜索引擎可能根本看不到你的Canonical标签。权重传递的效用将会被忽略,因为机器人的noindex标签会使它看不到Canonical标签! 

Meta Robots 'noindex' & X-Robots-Tag 'noindex' 

这些标签是多余的。这两个标签放置在同一个页面我只能看到的是给SEO造成的不良影响。如果你能在元机器人‘noindex’中改变头文件,你就不应该使用x机器人标签吧。 

Robots.txt Disallow &Meta Robots 'noindex'

这是我看过的最常见的冲突: 

我之所以青睐Meta Robots“noindex”的原因是因为它可以有效的阻止一个页面被索引,同时它还还是可以传递权重到连接这个页面的更深层次的页面。这是一个双赢的方法。   robots.txt文件不允许完全限制搜索引擎查看页面上的信息(以及其中有价值的内部链接),特别是不能限制url被索引。有什么好处?我曾经单独写过一篇关于这个主题的文章。 

如果两个标签都使用,robots.txt保证会使Meta Robots ‘noindex’ 不被蜘蛛看到。你会受到robots.txt中disallow的影响并且错过了所有的Meta Robots‘noindex’带来的所有好处。

这些技巧对于引导蜘蛛的访问很重要,长沙seo今天好好学习下

®陈鹤群seo博客™ | 版权所有 | 若非注明 | 均为原创™
㊣ 转载请附上文章链接并注明: 陈鹤群seo博客 » 学习robots的一些限制技巧
㊣ 本文永久链接: http://www.chenhequn.com/archives/205.html

7条评论

评论加载中,请稍等...

昵称*

邮箱*

网址