当前位置:文档之家› 搜索引擎工作原理

搜索引擎工作原理

搜索引擎的工作原理总共有四步:
第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链
接,所以称为爬行。

第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。

第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。

不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。

比如:某一种搜索引擎没有这种资料,您就查询不到结果。

二、操作步骤
1.抓取
读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来,被抓取的网页被称之为网页快照。

2.数据库处理
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。

其中有,网站数据库,就是动态网站存放网站数据的空间。

索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。

简单的来说,就是把【抓取】的网页放进数据库。

3.分析检索服务
搜索引擎从索引数据库中找到匹配该关键词的网页;
4.对收集的结果进行排序
把收集来的网页进行排序,把这些进行最终的排序。

相关主题