搜索引擎和技术架构
反作弊模块
除了我们刚才所学到的模块,搜索引擎的“反作弊”模块 也是非常重要的。因为搜素引擎作为互联网用户的上网入 口,对网络流量的引导至关重要,甚至可以说起到了至关 重要的作用。于是,各种“作弊”方式就流行起来了,通 过各种手段将网页的搜索排名提高到与其网页质量不相称 的位置,这严重的影响了用户的搜索体验。因此,反作弊 模块是必不可少的。
在此之后,搜索引擎会对网页进行解析,抽取出网页主体 内容,以及页面中包含的其他页面链接。之所以保存链接, 是因为这种链接关系在网页相关性排序阶段是可以利用的, 通过“链接分析”可以判断出页面的相对重要性。
最后,因为网页的数量太多,搜素引擎不仅需要保存网页 原始信息,还要存储一些中间的处理结果,使用少量的机 器明显是不现实的,因此搜索引擎开发了一整套的云存储 与云计算平台。
搜索引擎架构示意图及总结
结束语
谢谢大家的观看!
谢谢观赏
回顾
刚才所学到的是搜索引擎如何获取并存储海量的网页相关 信息,这些功能因为不需要实时计算,所以可以被看成搜 索引擎的后台计算系统。而搜索引擎的最重要的目的是为 用户提供准确全面的搜索结果,如何响应用户查询并实时 的提供准确结果构成了搜索引擎前台计算系统。
第二部分 搜索引擎的前台计算系统
当搜索引擎接收到用户的查询词后,首先应该是对查询词 进行分析,希望能够结合查询词和用户信息来正确推到的 真正搜索意图。
其次,搜索引擎缓存系统。在分析完用户查询词的搜索意 图后,那么首先会在缓存中查找,搜索引擎的缓存系统存 储了不同的查询意图对应的搜索结果,如果能在缓存系统 中找到满足用户需求的信息,可以直接将搜索结果返回给 用户。
那么如果没有找到,搜索引擎将调用“网页排序”模块功 能,根据用户的查询实时计算哪些网页是满足用户信息需 求的,并排序输出作为搜素结果。而排序的重要参考因素 就是,一个是相关性因素,另外一个是网页重要性因素。
第一部分 搜索引擎如何获取并存储海量的数据
首先,应该讲到的是爬虫。因为搜索引擎的信息来源于互 联网网页,通过网络爬虫将整个互联网信息获取到本地。
其次,网上有些信息是完全相同的或者近似重复的,因 此就需要网页去重模块对此作出检测,并去除重复内容。
极客SEO之搜索引擎算法系列 因为了解,所以才能做的更好
搜索引擎的技术架构
By:觉白
搜索引擎真的这么简单?
答案是,NO!我们要透过现象看本质,不要被搜索引擎简单的外表所欺骗。事实 上,搜索引擎已经成为互联网应用中最具技术含量的应用之一。优秀的搜索引 擎需要复杂的架构和算法,以此来支撑对数以百亿计的海量数据获取、存储, 以及对用户查询的快速而准确的响应。那么接下来,我们从两个方面来学习下 搜索引擎的技术架构。