武汉seo关于网站robots文件设置的一些建议

- 编辑:武汉莫吧seo - 阅读:次 标签: 网站站内优化

  robots文件在网站根目录下,是一个名为robots.txt的纯文本文件,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  一般情况下只会用到四条指令,

  User-agent:

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

  Disallow:

  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  Allow:

  该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

  Sitemap: http://www.***.com/sitemap.xml

  声明网站的站点地图
  有哪些页面可以禁止抓取
  比如我拿织梦为例
  织梦的后台文件夹目录为dede
  就可以这样写:
  User-agent: *
  Dissalow: /dede
  需要屏蔽那个文件夹,就可以依据以上写法,整个文件夹下的所有文件都不会被抓取,如果只想屏蔽某个文件,则只需要写这个文件即可。
  如Dissalow: /404.html表示禁止抓取404页面
  屏蔽后台的登录路径有一个注意的地方就是,如果写完整的文件夹名称将会暴漏后台登录地址,我们可以只需要写两个字母或者三个字母也可以
  例如:Dissalow: /dede,我们可以这样写:
  Dissalow: /de,蜘蛛就不会抓取所有以de开头的文件或者文件夹,还需要注意的就是,如果你有需要抓取的文件也是以de开头的,最好将他们区分开命名。

  robots文件设置的注意事项:

  1,注意网站页面文件所在的文件夹不能屏蔽
  2,网站后台的程序文件夹都可以屏蔽
  3,robots文件在网站根目录下
  4,无用页面,比如登录页面等等可以屏蔽
robots示意图

版权申明:本文来自于武汉莫吧seo相关文章武汉seo关于网站robots文件设置的一些建议,本文固定链接http://www.mbxeo.com/wzyh/47.html,转载请注明本段话,感谢您的合作!

你会喜欢下面的文章? You'll like the following article.