Robot的用法

Robot英文直译是机器人,在 搜索引擎 优化SEO中,我们经常翻译为:探测器。有时,你会碰到crawlew(爬行器),spider( 蜘蛛 ),都是探测器之一,只是叫法不同。

当一个搜索 蜘蛛 访问 一个站点时,它会首先检查该站点根目录下是否存在 robots .txt,如果存在,搜索机器人就会按照该文件中的内容来确定 访问 的范围;如果该文件不存在,所有的搜索 蜘蛛 将能够 访问 网站上所有没有被口令保护的页面。


robots .txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 robots .txt的格式:
User – agent :描述 搜索引擎 robot的名字

Disallow :描述不希望被 访问 的一组URL

Allow:描述希望被 访问 的一组URL

解释:

User – agent :即你可以指定该规则只对baidu或者google或者其它指定 搜索引擎 有效,可用通配符*表示全部

Disallow :设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型

Allow:描述希望被访问的一组URL

常用Rotbot的名字:

google 蜘蛛 :googlebot

百度 蜘蛛 :baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler/

inktomi蜘蛛:slurp

写好robots.txt对于网站的优化也是很有好处的。

《Robot的用法》上有12条评论

    1. 汗…很简单啊
      第一个直接在后面加*
      第二个打网址或文件夹路径(相对路径)表示不想搜索引擎收录
      第三个跟第二个相反
      其实只是个声明,并不是规则
      比如度娘就不遵守…谷歌给力啊

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code