论文摘要本文首先介绍了Internet及WWW的迅速发展状况,分析了Internet信息资源的特点。
在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。
随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。
然后,文章介绍了“天网”系统中的信息统计子系统。
信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。
本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。
关键词:搜索引擎、信息统计、机器学习新词目录目 录 (2)第一章 背景介绍 (3)§1.1 Internet 和 WWW 的发展与现状 (3)§1.2 搜索引擎技术的发展与现状 (5)第二章 系统概述 (6)§2.1 系统的总体结构 (6)§2.2系统技术特征 (6)§2.3总体性能 (8)第三章 信息统计子系统 (10)§3.1 系统的改进需求 (10)§3.2 信息统计子系统的总体结构 (10)§3.3 运行条件 (11)§3.4 使用界面 (11)第四章 数据库信息处理的实现 (14)§4.1 设计目标 (14)§4.2 数据库处理 (14)§4.3 引用次数排行表 (15)§4.4 HASH 表 (16)§4.5 统计各个域内的主机数目 (18)§4.6 主机情况查询 (19)第五章 日志文件信息处理的实现 (20)§5.1 设计目标 (20)§5.2 文件处理 (20)§5.3 新词学习 (22)致谢 (25)参考文献 (26)第一章背景介绍§1.1 Internet 和 WWW 的发展与现状Internet是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。
Internet的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。
组建ARPANET的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。
后来,人们才逐渐认识到它作为通讯手段的好处。
1983年后,ARPANET中有关军事的部分被隔离为MILNET。
其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。
90年代初到现在,是Internet增长最迅速的时期。
1993年,Internet的增长速度是341%。
截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。
Internet上的信息资源随着Internet 的发展也呈现出以下特点:z信息量大而且分散z自治性强z信息资源多种多样z信息变化快z不一致和不完整性这些特点对网络软件的性能提出了很高的要求。
World Wide Web(WWW)是全球性的网络信息系统。
一九八九年,位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了WWW的研究工作。
随后,许多其它的研究机构、大学和公司也加入WWW研究者的行列,并相继开发出各自的WWW软件。
这些WWW软件的运行平台覆盖了目前主流的计算机硬件和操作系统。
在此过程中,WWW也不断完善和发展。
同时,为了保证不同WWW软件之间的互操作性,一系列WWW协议和标准也正在使用和完善之中。
WWW是基于超文本(Hypertext)和超媒体(Hypermedia)的分布式信息系统。
超文本和超媒体是信息的一种组织形式,如图1.1所示:在超文本文件中,包含有许多指针,这些指针被称为超文本链(Hyperlink)。
每一个超文本链都指向其它的超文本信息。
这些超文本信息可能存放在同一台计算机中,也可能存放在WWW信息系统的其它计算机中。
读者并不关心这些超文本信息存放在何处,如果他们想了解这些信息,他们就可以通过超文本链得到。
超媒体是对超文本的扩展。
在超媒体系统中,超媒体链可以指向任何媒体信息,包括图象、音频、视频等等。
超文本和超媒体为用户进行信息检索提供了极大的方便。
§1.2 搜索引擎技术的发展与现状随着WWW的迅速发展,Internet上出现了WWW信息查询服务,它们通常被称作搜索引擎。
这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW 页面,将访问的信息存入数据库。
然后将数据库中的信息建立索引,并提供给用户WWW的查询界面。
搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。
目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。
分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。
国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。
虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对中文信息的处理上尚存在很多不足,如不能准确切词,不能在上下文环境中理解语义等等。
第二章系统概述§2.1 系统的总体结构“天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。
本系统的研制列入CERNET应用系统课题项目,其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。
它符合相关的INTERNET标准,能够自动对WWW 信息进行定向搜集,同时建立WWW资源索引数据库,以满足远程WWW浏览器的交互式查询请求,并将查询的结果以HTML文件的形式返回给用户。
本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS 收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。
其总体结构如图2.1所示。
§2.2系统技术特征本系统有以下技术特征:1.信息收集符合Internet的相关协议和标准。
因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有关协议和标准的支持作为一个重要的目标。
这些协议和标准包括:HTTP协议、MIME、HTML语言、WWW Robots标准、NNTP协议。
2.实用、高效的信息分析方法。
本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置,并结合使用中文分词、词频统计和一定的自然语言理解技术,智能化地提取该页面的关键词和摘要。
3.高度智能性和适应性的信息发现方法我们在本系统中主要使用程序方式自动收集WWW信息,即WWW机器人方式。
在该方式中,有一个能自动在WWW网中获取信息并进行漫游的程序根据HTML文档中的超链,自动收集和索引WWW信息.这种方式速度快、基本不需人工干预。
4.中文信息处理技术中文信息处理与英文存在很大不同,这是因为中文信息处理具有很多自己的特点,这使中文信息的词语切分(切词)成为汉语信息处理的第一道关口,也是建立中文信息发现和检索系统的关键性技术之一。
我们使用以带词类标记的词典为基础、以切词与标注相结合的方法处理中文信息,较好地解决了汉语的切词问题。
5.可伸缩的分布式结构本系统主要由信息收集子系统和信息检索子系统两部分组成。
这两个子系统之间既相互联系,又相互独立,可以分布在不同的主机上分别运行。
6.基于词的大型、高效的信息索引数据库和快速、准确的检索方法。
本系统主要采用基于词的索引,以达到较快的速度和较高的准确性,同时减少索引信息对磁盘空间的占用。
在索引库中采用分级的优化索引结构和多级索引技术,将较小的一级索引驻留内存,检索操作过程大部分在内存中进行,尽量减少对硬盘文件的访问。
因而大大提高了检索的响应速度。
索引库支持增量修改和索引。
以减少数据复制时产生的网络流量,提高索引速度。
7.智能化、多功能的用户检索接口。
用户可以通过浏览器直接访问本系统,还可以使用Email查询接口。
§2.3总体性能WebGather由于采用了可伸缩的分布式结构、内存Cache、索引数据库和检索数据库分开等先进、有效的技术,使得系统占用资源少、信息收集速度快、用户查询响应时间快(系统对96.7%以上的查询可在1秒钟之内作出响应)、查准率和查全率较高,基本达到了实用化程度。
系统在设计和实现过程中,充分考虑到了用户和管理员的使用习惯,提供了浏览器、电子邮件、中英文用户接口和方便易用、功能丰富的管理工具,因而有很好的可用性和易用性。
天网从1997年10月在CERNET上提供服务以来,得到了用户的欢迎和好评。
统计数字表明了系统的使用情况:时间 1998年 1999年3月 1999年4月平均每天访问人次 2200 10113 15333由于天网功能全面、性能突出,《软件世界》杂志1998年第7期将天网评价为国内最好的中英文搜索引擎。
第三章信息统计子系统§3.1 系统的改进需求经过测试和改进,到1998年,天网搜索引擎已经可以很好地为广大网络用户服务了。
在CERNET上,平均每天有几千人次访问天网搜索引擎。
许多研究人员、教师都把天网搜索引擎作为他们工作中的重要工具。
为数众多的大中院校学生每天通过天网搜索引擎查询专业信息,了解社会动态,和娱乐消遣。
随着系统的广泛使用,对索引数据库以及用户查询记录进行处理,从中提取出有用的信息,帮助系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求,成为一个急待解决的问题。
信息统计子系统就是为这个目的而设计的。
该子系统通过处理索引数据库产生关于网上页面、主机状况的信息,如页面的平均长度、页面的被引用情况、页面的编码类型、主机上的页面数等等;通过处理用户查询记录文件产生关于用户需求的信息,如用户的访问次数、访问类型、常查询的词语,并可以自动学习新词。
§3.2 信息统计子系统的总体结构信息统计子系统的总体结构如图3.1所示。
信息统计子系统主要分为三大模块。
第一部分是数据库信息处理程序,它启动运行后,从索引数据库中读取数据,统计出信息,写在结果文件中。
这部分内容又可分为统计页面信息和统计主机信息两部分。