010-56250565
 
百度蜘蛛是如何爬行和抓取网站的
2014-10-20 浏览:1233次 来源:北京网站建设

        
爬行和抓取是搜索引擎工作的知名步,完成数据收集的任务。
    搜索引擎用来爬行和访问而面的程序被称为蜘蛛,也称为机器人
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发布爬行。
    蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止访问的网址。
    和浏览器一样,搜索引擎蜘蛛也有标明自已身分的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辩别搜索引擎蜘蛛。

2. 跟踪链接
    为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。
    整个互联网是由相互链接的网站及页面组成的。从理论上来说 ,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面,当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有的页面。

   较简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先。
   所谓深度优先,指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到知名页面,沿着另一个链接一直往前爬行。

  蜘蛛跟踪链接,从A页面爬行到A1.A2.A3.A4.到A4页面后,已经没有其它链接可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到B1,B2.B3.B4.在深度优先策略中,蜘蛛一直爬到无法再向前,才返回爬另一条线。

   广度优先是指蜘蛛在一个页面上发现多个链接旮,不是顺着一个链接姨直向前,而是把页面上所有知名层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
   如图2-21所示,蜘蛛从A页面顺着链接爬行到A1,B1,C1页面,直到A1页面上的所有链接都爬行完,然后再从A1页面发现的下一层链接,爬行到A2.A3.A4.……。页面

    从理论上来说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源,时间都不是无限的,也不可能爬完所有的页面。实际上较大的搜索引擎也只是爬行和收录了互联网的一小部分。
   深度优先和广度优先通常是混合使用的,这样即可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先)北京网站建设公司每日分享网站优化知识,希望能与您成为忠实的好朋友,一起学习探讨建站技术。

 
 
阅读下一篇
分享优化过程中如何快速收录自己的网站
 
 
延伸阅读
圭亚那驻华大使馆官网
玻利维亚大使馆网站分析
巴西驻华大使馆网站
多米尼克国驻华大使馆官网
哥斯达黎加驻华大使馆网站
美国驻华大使馆官网点评
新西兰驻华大使馆网站建设
 
准备开展业务?
联系专业的商务顾问,诊查网站现状及关键词、分析竞争对手的流量、一对一咨询、及其报价详情