你现在的位置:网站首页 - 阅读《SEO艺术》让我受益匪浅的技术读本! - 正文
07月19日

搜索引擎工作原理简介 百度搜索引擎是如何抓取网页的?


作者 : admin | 分类 : 阅读《SEO艺术》让我受益匪浅的技术读本! | 超过 人围观 | 已有 0 人留下了看法

 搜索引擎的工作主要可以分为三个部分,也就是三个阶段:

第一阶段为爬行和抓取阶段,搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面的html代码,存入数据库

第二阶段为预处理阶段,搜索程序对抓取的页面数据进行文字提取,中文分词,索引,倒排索引等处理之后,以备排名程序调用。

第三阶段为排名阶段,用户输出查询词之后,排名程序调用索引数据库,计算相关性,然后按照一定的各式生成搜索结果页面。

进行我们说说这搜索引擎中百度搜索引擎是如何抓取页面的也就是第一阶段的重要性。

1,爬行和抓取。蜘蛛:搜索引擎用来爬行和访问页面的程序被称之为蜘蛛或者是机器人。互联网就像是蜘蛛的网一样,蜘蛛程序愉快的在这张网上进行爬行。蜘蛛访问任何一个网站是都会先访问网站的robots.txt文件,如果这个文件是禁止搜索引擎抓取的某些页面或者是目录的话,蜘蛛将遵守协议,不抓取被禁止的页面。每个搜索引擎都有自己的蜘蛛名称,百度的蜘蛛名称是baiduspider+。

2,跟踪链接,为了抓取网上尽量多的网页,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到另一个页面,就好像蜘蛛在蜘蛛网上爬行是一样的,整个互联网都是有网站与网站之间的链接组成的,这就形成了一张网。蜘蛛从任何一个页面出发,顺着链接都可以拍醒到网上的所有页面,当然由于网站及页面的链接结构异常页面,只会需要采取一定的爬行策略才能在网上游荡。搜索引擎的爬行分为两种,一种是深度优先,一种是广度优先。深度优先就是搜索引擎沿着一个连接一直爬行一直往前。而广度爬行则是在一个页面中爬行这个页面的层次,一直停留在这个页面但是却在不断的发现页面中的链接。所以从理论上,我们做优化不论是深度优先还是广度优先都要做好。

3,吸引蜘蛛,理论上,我们的网页是会被抓取的,我们所有的页面都会被抓取,但是实际上是不一样的,站长想要让搜索引擎尽可能多的抓取页面就要不断的吸引蜘蛛来抓取页面,这就需要站长制作大量的外部链接来吸引蜘蛛抓取网站中的内容。那么有哪些因素影响网页的抓取呢?

a,网站和页面的权重,会影响抓取。质量高,资格老的网站被认为是高权重网站。

b,页面的更新度,当网站长期不更新的话,搜索引擎多次来抓取都没有更好的更新的内容,那么搜索引擎会降低对网站的权重和页面的收录数。网站经常不更新,搜索引擎自然会认为网站没有一定的重要性,自然抓取的就少了。

c,导入链接,及有多少链接来吸引搜索引擎的抓取,无论是外部链接还是一个网站的内部链接,如果要被搜索引擎蜘蛛抓取页面就必须有更多的导入链接进入该页面,否则搜索引擎蜘蛛根本没有机会抓取页面的可能性,高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。

d,首页点击距离,一般来说网站上权重最高的是首页,大部分外部链接都是指向首页的,蜘蛛访问最频繁的也是首页,里首页点击距离越近,页面的权重越高,被蜘蛛爬行的几乎就越大。

e,url结构,页面权重在收录并进行计算后,才知道的,那么页面说的页面权重高于有利的被爬行,搜索引擎猪猪在抓取钱怎么知道这个页面的权重呢,所以蜘蛛要进行预判,除了链接,与首页的距离,历史数据等因素外,短的,层次浅的url也可能被只管的认为在网站上的权重是相对较高的。

4,地址库,搜索引擎百度等蜘蛛为了更好的避免重复多次爬行页面和抓取的网址,搜索引擎一般都会建设一个网址地址库,记录已经被发现的但是还没有被抓取的页面,以及已经被抓取的页面,蜘蛛在页面上发现连接后并不是马上就去访问,而是url存入地址库然后统一安排的。那么怎样进入地址库呢?有人工录入的方式进入种子库,蜘蛛爬行后存入的页面地址,站长通过搜索引擎页面提交表格进来的网址,站长通过xml网站地图,站长平台提交的网址。

5,文件存储,搜索引擎抓取的数据存入原始页面数据库,其中的页面数据与用户浏览得到的html是完全一致的,每个url都有一个独特的文件编号。

6,爬行时的复制内容监测,监测并删除复制内容通常是以后要说到的内容,但是现在蜘蛛在爬行和抓取文件的时候也会进行一定程度的复制内容监测,遇到权重很低的网站上大量转载抄袭的复制内容,很可能不在继续爬行,这也就是站长日志文件中发现了蜘蛛,但是页面从来没有被真正收录的原因之一。


本文出自 文影网络 ,转载时请注明出处及相应链接。

本文Tags:

« 上一篇

相关文章:

欢迎访问文影网络: