Robot英文直译是机器人,在 搜索引擎 优化SEO中,我们经常翻译为:探测器。有时,你会碰到crawlew(爬行器),spider( 蜘蛛 ),都是探测器之一,只是叫法不同。
当一个搜索 蜘蛛 访问 一个站点时,它会首先检查该站点根目录下是否存在 robots .txt,如果存在,搜索机器人就会按照该文件中的内容来确定 访问 的范围;如果该文件不存在,所有的搜索 蜘蛛 将能够 访问 网站上所有没有被口令保护的页面。
robots .txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 robots .txt的格式:
User – agent :描述 搜索引擎 robot的名字
Disallow :描述不希望被 访问 的一组URL
Allow:描述希望被 访问 的一组URL
解释:
User – agent :即你可以指定该规则只对baidu或者google或者其它指定 搜索引擎 有效,可用通配符*表示全部
Disallow :设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
Allow:描述希望被访问的一组URL
常用Rotbot的名字:
google 蜘蛛 :googlebot
百度 蜘蛛 :baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp
写好robots.txt对于网站的优化也是很有好处的。
过来看看!
给个搞好的文件啊
汗…很简单啊
第一个直接在后面加*
第二个打网址或文件夹路径(相对路径)表示不想搜索引擎收录
第三个跟第二个相反
其实只是个声明,并不是规则
比如度娘就不遵守…谷歌给力啊
那就是对百度没作用啊?
恩…就算你禁止了…百度还是会索引去的
还可以放音乐防止盗链…对百度不起作用
有段时间好像百度限制ROBOT了!
百度坑爹的,最坏的机器人
但大家都在用!
这个我没看明白啊
不懂还是别乱动的好啊
小心你站的收录全部消失!
因为是你主动不让搜索引擎收录的!
这就是robot的用法
靠,那你搞这个做什么啊
有的人不想被搜索引擎收录啊…
空天使就是