上文搜索引擎工作过程的三大阶段中有提到,爬行和抓取是搜索引擎工作的第一个阶段。这看似简朴的三个阶段,其实每一步的算法都是极其复杂的。就第一阶段来讲,搜索引擎详细是怎样爬行网站和抓取页面的呢?下文有行内人为我们做了简朴介绍:
爬行和抓取是搜索引擎工作的第一步,完成数据的搜集任务。
为了抓取网上的内容,蜘蛛会跟踪页面上的链接,从一个页面爬到另一个页面,就跟蜘蛛在网上爬行是一样的,这就是蜘蛛这名字的来由。
蜘蛛爬行方法有两种,第一种是深度优先,第二种是广度优先。深度优先是指蜘蛛顺着链接一直向前爬行,直到前面没有链接,然后返回到第一个页面,顺着另一个链接再爬下去。
广度优化是指蜘蛛在一个页面上发现了多外链接,不是顺着一个链接向前爬行,而且把页面上的所有第一层的链接全爬一遍,然后再去爬第二层。
现实上这两种方法是混合运用的,这样理论上是能够爬完整个互联网,但由于资源,工夫的限制,往往只能爬行抓取一小部分,所以吸引蜘蛛是SEO必做的功课。所以我必要讲一下哪一些页面蜘蛛会去抓取或者抓取的概率高。
1.与首页点击距离近,一般来说网站的首页权重是最高的,所以蜘蛛访问首页的频率最高,所以距离首页距离近的被抓取的概率高。
2.页面更新快,蜘蛛每次爬行都会被数据存起来,如果第二次爬行没有变化的话,说明没有更新,蜘蛛就认为这页面没有必要常常抓取,如果你更新快的话,蜘蛛就会更新过来。需要注意的是:更新最好有个工夫表,且每天固定工夫更新。
3.就是多去权重高的网站发点链接,这样同样也会提高被抓取的概率。
还有一个要说的就是地址库,这里只是简朴的说下,地址库主要就是防止重复爬行和抓取网址。