010-60531203
 
robots协议写法
2014-7-26 浏览:1591次 来源:北京网站建设

本人不是大牛,很多东西都是靠自己平时积累,学习,然后再总结出来的。今天和大家一起分享一下robots协议的写法。本文将由robots协议的一般写法到深入写法的探讨,指出不同写法的不同作用。
一、什么是robots协议

  robots协议全称为“网络爬虫排除标准”,英文名为“Robots Exclusion Protocol”。robots协议可以简单理解为站长和搜索引擎的一个简单的君子协议。站长可以通过设置robots协议来告知搜索引擎说哪些页面可以访问,哪些页面不可以访问。这样的君子协议对双方都有好处,对于搜索引擎来说,当他进入了你们的网站,它可以很快发现哪些东西可以收录,哪些不可以,这样能有效节省搜索引擎的工作效率,对于我们站长来说,不仅对我们做优化有益,而且还能起到保护网站隐私功效。

为什么这么说,下面举几个简单的例子:
1.某些路径中可能是网站上用户的个人隐私,不想被搜索引擎抓取,比如说facebook上一些用户的隐秘资料/
 2.如果我们网站存在一些死链,我们可以通过robots协议将死链屏蔽
3.如果某些站长用的是公用的虚拟主机,流量有限或者空间比较小,可以节省服务器带宽和网站访问速度.
 4.有的网站甚者是有效屏蔽某个搜索引擎,不愿意被他抓取,这样的网站较有名的就是之前淘宝

二、robots.txt函数释义

    常见的robots.txt函数有“User-agent”“Disallow”“Aallow”:
     1.User-agent:表示允许搜索引擎的身份,User-agent后缀不同则表示允许访问的搜索引擎有不同。例如:User-agent:Baiduspider表示允许百度蜘蛛,User-agent:Googlebot表示允许谷歌爬虫,User-agent: *则表示允许所有的搜索引擎。
     2.Disallow:表示禁止访问的内容。例如:Disallow: /表示网站禁止抓取访问; Disallow:则表示都允许收录;Disallow: /news/表示news这个文件夹的内容禁止访问;Disallow: /XXX.html表示XXX.html这个网站禁止收录;Disallow: /*.jpg$表示禁止抓取jpg格式的图片,其他类型的图片格式以此类推。

     3.Aallow:表示允许访问的内容,同时Disallow和Aallow一起运用,还能起到部分禁止收录,部分允许收录的作用。例如:news1-50中只有news49允许收录,其他的页面都是禁止收录的可以这样写:Disallow:/news    Allow:/news49/

三、菜鸟级robots协议写法

    菜鸟级的写法一般适用于刚接触seo这样行业或是框架结构简单的个人网站或企业网站。一般这种网站只需要在网站没有什么不允许收录的内容,而且允许所有的搜索引擎收录,另外为了方便搜索引擎收录,还可以加入sitemap。以我的博客站举例,可用写法如下:
User-agent:
 Disallow: )
 Sitemap: http://网站/sitemap.xml (谷歌sitemap写法)
 Sitemap: http://网站/sitemap.html(百度sitemap写法)
     只要本地创建一个robots.txt的文件,并将以上代码复制、修改网站域名并粘贴在robots.txt文件中,并上传到网站根目录即可。前提是你的网站根目录已经有了sitemap.html、sitemap.xml 文件。还有更方便的做法,可以直接在“站长工具”中的“代码转换工具”找到“robots.txt生成”,然后自己设置网站的参数,提交即可。

四、高手级robots协议写法

    高手级的robots写法主要是能巧用“Disallow”及“Aallow”函数,使网站收录被收录的内容结构更合理,也使搜索引擎爬行抓取的时候思路更清晰。下面我们看看百度跟谷歌的robots协议是怎么写的:
 User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?.
 Disallow: /link?

User-agent: Googlebo
 Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
 Disallow: /cpro. G)
 Disallow: /ulink?
 Disallow: /link?

    由上面的例子可知道,百度屏蔽了谷歌,谷歌屏蔽了百度,谷歌和百度的搜索引擎收录的内容都是不共享的,这也刚好说明了为什么百度跟谷歌收录我们网站的内容跟外链数会不同。百度和谷歌主要是做了彼此竞争对手的屏蔽,那对于我们站长来说,需要屏蔽的网站目录有哪些?
1、图片目录
   现在网络上大量CMS的出现,对于这些大量同质化模板网站,被反复使用,不同的网站同样的框架又反复被搜索引擎收录。这样的网站搜索引擎是一定是不会喜欢的,就算是你的网站被收录了,那你的网站权重也会受点影响的。对于这种情况,较好是把网站根目录的imags或者img目录屏蔽掉。
2、死链页面屏蔽
  一个网站上的死链过多,对网站优化推广来说,无疑是致命的。不仅用户体验会影响,而且过多死链也会使网站排名,权重下降。对于死链的出现,常规的做法是做404页面,当然也可以通过Robots协议将其进行屏蔽。只要找到出现死链的页面,然后设置成Disallow: /XXX.html的格式就可以了。
3、CSS、JS目录的屏蔽
  对于一个网站来说,经常是少不了CSS或是JS的应用,对于这些CSS或是JS也无法对搜索引擎提供有价值的信息。所以AJ强烈建议各位站长应用Robots协议将其进行屏蔽,以提高搜索引擎的索引质量,同时更提升网站对搜索引擎爬虫的友好性。CSS或是JS通常对应网站根目录的CSS或者style文件夹中。
4、双页面的内容屏蔽.
   什么是双页面的内容?双页面的内容是指同一个网页的内容,却出现两个不同URL链接的地址。这样的双页面的内容出现,就会容易使搜索引擎误以为网站内容重复。例如:DEDECMS的一个网页内容可以通过一个静态URL和动态URL进行相同内容的访问。一般这种情况,你就需要将动态的url的内容屏蔽掉就OK了。

  掌握好robots协议的写法,也就是掌握了网站建设优化中的重要一环。做好robots协议,让您的网站更受搜索引擎的青睐!)

以上就是今天所总结的内容!可能某些地方写的不是很好,或者是与你的想法不一样!欢迎大家回复,拍砖!欢迎大家持续关注北京网站建设公司的网站,希望大家能够从一诺的网站中学到东西,增强自己的知识。

 
 
阅读下一篇
公司签约北京博瑞奕华投资有限公司网站建设项目
 
 
延伸阅读
一诺互联再次牵手花眷芳香,开发芳香产品购物系统
一诺互联携手冠舟科技,助力品牌官网全面升级
一诺互联签约花卷人力公司,提供数字化品牌转型整体解决方案
一诺互联承建上海方圆医学科技有限公司官方网站
一诺互联签约北京世农种苗有限公司网站建设项目
一诺互联签约河北飞嘉医疗器械科技有限公司英文海外站建设服务
签约北京盈富创思信息技术有限公司网站建设服务项目
 
准备开展业务?
联系专业的商务顾问,诊查网站现状及关键词、分析竞争对手的流量、一对一咨询、及其报价详情