当前位置:文档之家› 主题搜索引擎的设计与实现

主题搜索引擎的设计与实现

第四代搜索引擎——主题搜索引擎的设计与实现Design and Implementation of Focused Search Engine,4th Generation Search Engine北京大学计算机科学技术系计算机软件专业九七级学士毕业论文指导教师:李晓明王建勇作者:罗昶学号:097081362001年6月指导老师对论文工作的评语“面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。

罗昶同学的毕业论文,是这一新方向的良好开端。

论文从系统实现的角度,较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面,着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用,并提出了“主题度”的概念,用以衡量主题搜索引擎的质量,意在指明一个搜索引擎在一个主题下的主题度越高,则它越贴近这个主题,用户就越容易找到跟这个主题相关的资料。

特别地,将上述认识用于实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量很大,且有较强的系统性,是一篇很有参考价值的论文,为“天网”的发展做出了贡献。

老师签名:__________论文摘要互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。

因此它也成为除了电子邮件以外最多人使用的网上服务。

但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。

同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。

针对这种情况,我们需要一个分类细致精确、对硬件要求低,数据全面深入、更新及时的面向主题的搜索引擎。

由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。

本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。

论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。

有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。

关键词:互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度AbstractInformation on the Internet grows explosively every day. Search engine provides all the surfers on it with an entrance, from which they can reach every corner of the web. Therefore, search engine becomes the most popular network service second to email.With information continuing to explode in all directions, however, some specified kinds of users are not satisfied with only one entrance. In the meanwhile, due to current hardware conditions, it is not likely to crawl full data on the Internet. What we need is a focused search engine, well classified, requesting low hardware condition, containing profound and entire data, and updating in time. Since it uses intelligent strategies such as human-classification and sample-extraction, it is called the 4th generation search engine, more efficient and accurate than the preceding ones.In this paper, described are the design and implementation of 4th generation search engine, Webgather Focused Search Engine. Mainly emphasized are its crawling strategies of orientation words, sample-extraction, authority and hub pages, anchor-text analysis and page rank. In the end, "Topic Approximation" is defined for performance evaluation. The higher the "Topic Approximation" is, the more accurate the search engine is and the more easily users could find out what they really need. With "Topic Approximation", it's easy to conclude that Webgather Focused Search Engine using intelligent strategies is more accurate than the original Webgather Search Engine without them.Keyword:Internet, WWW, Search Engine, Data Mining, Focused Crawling, Topic Approximation目录指导老师对论文工作的评语 (1)论文摘要 (2)ABSTRACT (3)目录 (4)第一章背景介绍 (7)§1.1I NTERNET与WWW发展现状 (7)§1.1.1 Internet的发展历程 (7)§1.1.2 World wide web(www) (7)§1.1.3 Internet的信息分布 (8)§1.2搜索引擎简介 (9)§1.3主题搜索引擎——第四代搜索引擎 (10)§1.4小结 (10)第二章天网搜索引擎系统结构 (12)§2.1系统简介 (12)§2.2系统结构及各部分功能 (12)§2.2.1 WWW信息存取和分析子系统(主控程序) (13)§2.2.2 WWW信息收集控制子系统(搜索器) (13)§2.2.3 资源索引数据库 (13)§2.2.4 信息检索子系统 (14)§2.2.5 管理和监控子系统 (14)§2.3主控程序及搜索器的实现 (14)§2.3.1 主控程序 (14)§2.3.2 搜索器 (16)§2.4小结 (17)第三章主题搜索策略 (18)§3.1.1 导向词及权值的配置 (18)§3.1.2 根据导向词及权值改变搜索顺序 (19)§3.2网页评分(P AGE R ANK) (19)§3.2.1 引用计数(Hit Number) (19)§3.2.2 网页评分(Pagerank) (20)§3.3权威网页(A UTHORITY)和中心网页(H UB) (21)§3.3.1 什么是权威网页和中心网页 (21)§3.3.2 发掘权威网页的难度 (23)§3.3.3 权威网页和中心网页的计算公式 (23)§3.3.4 计算权威网页和中心网页的算法 (24)§3.4超链描述文本分析(H YPERLINK A NCHOR T EXT A NALYSIS) (25)§3.5小结 (25)第四章天网主题搜索引擎的实现 (26)§4.1系统模块图 (26)§4.2存储结构 (27)§4.2.1 系统数据库 (27)§4.2.2 搜索器和主控程序之间的通讯——扩展SOIF结构 (30)§4.2.3 导向词的存贮 (33)§4.3搜索器的实现 (34)§4.3.1 导向词的加载分析 (34)§4.3.2 搜集策略的实现 (35)§4.4小结 (38)第五章系统现状和性能 (39)§5.1天网主题搜索引擎系统现状 (39)§5.2主题度的定义 (39)§5.3天网主题搜索引擎与通用搜索引擎的比较 (40)第六章总结展望 (42)参考文献 (44)参考URL (45)第一章背景介绍§1.1 Internet与WWW发展现状§1.1.1 INTERNET的发展历程Internet的前身是美国国防部高级研究计划署的研究试验性网络ARPANET。

1983年TCP/IP 成为ARPANET上唯一的正式协议。

此后,ARPANET上连接的网络、机器和用户快速增长。

1988年NSFNET和ARPANET互联,它的规模以指数增长,很多地区网络开始加入,并且开始与加拿大、欧洲和太平洋地区的网络连接。

后来形成Internet。

90年代初到现在,是Internet增长最迅速的时期。

1993年,Internet的增长速度是341%。

截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。

到1998年7月,Internet已拥有427万个网址,4300万个域名,3673.9万台主机和3.2亿个网页,其规模大概每年翻一番。

相关主题