错误的robots.txt 百度K站没商量

2016-01-31    编辑:kp12345     点击(

相信很多站长都很清楚robots.txt文件,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。A5优化小组http://seo教程.admin5.com/认为robots.txt文件重要作用就是robots.tx可以屏蔽重复的内容收录,避免同一个网页被百度收录N次。robots.txt虽然很是重要,但是很少有站长能够正确配置伪静态文件,即使是大企业大人物的网站,也很难正确配置好robots.txt。

  比如康盛创想发布的Discuz!X1.0论坛版本,当时很多站长使用Discuz!X1.0导致百度收录数量剧增,但帖子数量没增加,A5优化小组经过全面检测Discuz!X1.0发现,同一个帖子可以使用五个以上的不同网址访问,但robots.txt并没有屏蔽掉重复的网址,导致网站收录数量剧增,最后很多使用Discuz!X1.0版本的论坛被百度毫不留情的K掉。A5优化小组为了帮助使用Discuz!X1.0的站长,第一时间在Discuz!论坛发布了正确的robots.txt配置文件,A5优化小组同时联系康盛创想官方反应robots.txt存在的问题。康盛创想积极听取了A5优化小组意见,在Discuz!X1.5及更新版本中,A5优化小组发现康盛创想已经几乎完美配置了robots.txt。

  比如著名SEO专家ZAC的博客,是使用的wordpress博客系统建立的,因为robots.txt没有配置好,导致每篇博文,收录几十次甚至上百次,A5优化小组通过检测ZAC的博客发现,只要博文被评论一次,就可能被百度一次博文,如果一篇博文被评论一百次,那么这篇博文就可能被百度收录一百次。是什么原因导致ZAC博客严重重复收录呢?A5优化小组发现,几乎所有重复收录的网页的网址后面都存在?replytocom=****,replytocom是博客的一个参数,****是代表数字,只是数字不同,为什么会出现这种现象?这是因为百度蜘蛛扫描ZAC博客的replytocom参数的页面“replytocom” 相当无用。ZAC博客应该如何解决这种重复收录呢?A5优化小组认为,既然ZAC博客进行了伪静态,就应该把所有动态网址屏蔽掉,robots.txt文件增加一行:Disallow: /*?*即可解决ZAC博客重复收录现象。

点击查看原图

  A5优化小组自从提供SEO诊断优化服务以来,发现很多网站存在网页大量重复收录现象,不少网站因为内容重复收录,被百度直接K掉,毫不留情