营销分享
搜索引擎是怎样爬行网站并抓取页面的?
2014-07-11 12:30  浏览:238667  搜索引擎搜索“手机晒展网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机晒展网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

  上文搜索引擎工作过程的三大阶段中有提到,爬行和抓取是搜索引擎工作的第一个阶段。这看似简朴的三个阶段,其实每一步的算法都是极其复杂的。就第一阶段来讲,搜索引擎详细是怎样爬行网站和抓取页面的呢?下文有行内人为我们做了简朴介绍:

  爬行和抓取是搜索引擎工作的第一步,完成数据的搜集任务。

  为了抓取网上的内容,蜘蛛会跟踪页面上的链接,从一个页面爬到另一个页面,就跟蜘蛛在网上爬行是一样的,这就是蜘蛛这名字的来由。

  蜘蛛爬行方法有两种,第一种是深度优先,第二种是广度优先。深度优先是指蜘蛛顺着链接一直向前爬行,直到前面没有链接,然后返回到第一个页面,顺着另一个链接再爬下去。

  广度优化是指蜘蛛在一个页面上发现了多外链接,不是顺着一个链接向前爬行,而且把页面上的所有第一层的链接全爬一遍,然后再去爬第二层。

  现实上这两种方法是混合运用的,这样理论上是能够爬完整个互联网,但由于资源,工夫的限制,往往只能爬行抓取一小部分,所以吸引蜘蛛是SEO必做的功课。所以我必要讲一下哪一些页面蜘蛛会去抓取或者抓取的概率高。

  1.与首页点击距离近,一般来说网站的首页权重是最高的,所以蜘蛛访问首页的频率最高,所以距离首页距离近的被抓取的概率高。

  2.页面更新快,蜘蛛每次爬行都会被数据存起来,如果第二次爬行没有变化的话,说明没有更新,蜘蛛就认为这页面没有必要常常抓取,如果你更新快的话,蜘蛛就会更新过来。需要注意的是:更新最好有个工夫表,且每天固定工夫更新。

  3.就是多去权重高的网站发点链接,这样同样也会提高被抓取的概率。

  还有一个要说的就是地址库,这里只是简朴的说下,地址库主要就是防止重复爬行和抓取网址。

    IP:113.118.50.***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发