*绍兴图书馆图书检索垂直引擎研究及应用
吴国芳(绍兴职业技术学院信息工程学院,浙江绍兴312000)摘要:通用的搜索引擎所采集信息的速度跟不上网络资源的增长速度,而且检索词的命中率不到75%.以绍兴市图书馆为研究对象,将具有“专、精、深”特点的垂直搜索引擎引入其检索系统,设计了图书检索垂直引擎系统,以提高图书检索的查准率、查全率.该系统利用知识组织方式重新标引图书资源,通过建立用户画像实现个性化垂直搜索.关键词:垂直搜索引擎;知识组织系统;智能信息检索中图分类号:TP391.3文献标识码:A文章编号:1008-293X(2014)07-0018-04
绍兴图书馆数字化工程经过10余年的建设,目前已拥有较为完善的软、硬件设施,积累了一定规模的数字资源,在特色数据库建设以及公共图书馆数字资源整合门户建设方面已具雏形,相继开通了多项数字化服务项目.2011年绍兴图书馆数字资源访问、下载量突破了80万篇(册)次.但同时,绍兴图书馆这些数字资源本身是零散的、孤立的,不利于读者的利用,而且绍兴地区各个图书馆之间资源因缺少有效的整合统筹途径,各自独立为营,资源重复建设的情况比较突出.因此,实现具有实用性、整合性、统一认证、可扩展、可配置的数字资源门户(共享)平台,从而为读者提供统一服务入口,从各类资源与应用中获取个性化信息是很有必要的.提高数字图书馆的查准率、查全率是实现智能化知识服务的基础.在图书检索中,用户的查询请求一般用一个或几个关键词来表示,而这往往很难忠实表达用户的检索请求,导致用户真正需要的文档因关键词的选择不当而无法检索出来.通用搜索引擎采集信息的速度跟不上网络资源的增长速度,检索词的命中率不到75%[1].绍兴市图书馆数字图书馆于2012年建成,为绍兴市图书馆量身定制一个垂
直搜索引擎,提供个性化知识服务,对其数字图书馆建设是有意义和必要的.
1国内外研究现状
目前,国内基于垂直搜索引擎方面的研究大都集中在原理、算法等方面.邹嵩等[2]通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率.夏斌等[3]以用户对农业信息搜索需求为研究背景,采用向量空间模型对农业主题进行识别,并采用网页内容和链接分析相结合的方法,设计实现了一个中文农业信息垂直搜索引擎.汲业等[4]根据生活服务领域网页信息的特点,提出了一种面向生活服务领域的垂直搜索引擎模型,给出了该模型在信息采集、信息抽取、索引建立和信息检索等4个功能模块的具体算法及实现方式.刘博卿[5]从军事工程兵的角度出发,对垂直搜索引擎进行系统研究,研究表明垂直搜索引擎具有很强的针对性、智能性和实时性.而基于用户行为分析方面的研究,国内主要集中在算法研究阶段.王微微等[6]针对现有的用户模型不能及时根据用户自身兴趣偏移进行更新的问题,提出了一种基于用户行为反馈的兴趣度模型更新算法,实现用户兴趣的自动更新,得到针对新用户兴趣的推荐商品列表以及推荐商品的个性化排序,从而向用户进行个性化推荐.于升峰等[7]从全面分析用户上网行为入手,构建网络行为数据库,采取区别不同用户的个性化主动RSS推送服务方式,提出了一种基于用户行为数据库的主动式知识服务模式.王存睿等[8]结合用户行为时间序列和操作频次,融合FP-GROWTH算法设计了用户特征挖掘算法,建立网络形式的用
第34卷第7期2014年3月绍兴文理学院学报JOURNALOFSHAOXINGUNIVERSITYVol.34No.7Mar.2014
*收稿日期:2014-02-17基金项目:浙江省教育厅高等学校访问学者专业发展资助项目(FX2013236)作者简介:吴国芳(1978-),女,浙江东阳人,硕士,讲师,研究方向:智能信息处理、数据库技术、图形图像处理.户行为特征表达方法,并设计了相应的用户行为采集系统.张宇红[9]介绍地方文献作为特色馆藏进行主题标引的案例,其目的在于资源的共建共享.
2垂直搜索引擎相关技术
2.1知识组织系统
知识组织系统(KnowledgeOrganizationSystems,KOS),是随着数字信息组织技术及人们对信息组织需求的发展,由信息组织向知识组织变革而产生的各种语义工具的统称.知识组织系统的类型最早期是分类法,其后出现了叙词表、概念地图、语义网络以及本体等.利用知识组织方式对图书等资源进行重新标引,能够揭示其语义特征从而支持相关推理.利用领域知识对资源进行二次加工和整合,能够赋予资源专业化、语义化特征,因而克服了通用搜索引擎基于关键词匹配查全率不足的问题.特色数据库正是利用知识组织系统进行再加工而形成的能够满足用户个性化需求的文献资源库,它依托图书馆馆藏文献资源,针对特定读者的信息需求,对某一学科领域或某一专题中有利用和收藏价值的文献信息进行收集、整理、分析、评价、处理、存储等,并按照某一标准数据格式和规范将其数字化.2.2垂直搜索引擎
垂直搜索引擎又称专业或主题搜索引擎,是专门针对普通搜索引擎查询的信息量大而且查询不准确、深度不够等特点提出的新查询服务工具[10].垂直搜索引擎具有浓郁的行业和领域特色,是专为检索某一
学科或主题的信息而产生的查询工具,专门收录某一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多,其特点就是“专、精、深”.相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入.垂直搜索引擎凭借明确的检索目标定位,对网页进行选择性收集,信息采集量小,更新及时,因而能有效解决通用搜索引擎的弊端[11].垂直搜索引擎正在以其日趋精准化、
人性化的信息检索服务,提升人们对搜索引擎的使用率和认同度,助推了搜索引擎的快速发展.垂直检索引擎主要由内容抓取、建立索引以及检索系统组成.内容抓取———主要是通过蜘蛛程序从信息源抓取数据.内容抓取涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引等.建立索引———是指把抓来的信息建立类似书目的数据文件,以实现高速检索.检索系统———就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能.垂直搜索是对行业信息进行深度的加工,有效的整合.本文重点研究利用知识组织系统,对其图书检索内容进行分析,提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完整的体验.
3系统设计与实现
本系统以绍兴市图书馆为应用环境,利用知识组织方式对图书资源进行标引形成特色数据库,同时通过用户画像的建立,实现用户个性化垂直搜索服务.绍兴图书馆图书检索垂直引擎系统的原理如图1所
图1系统原理图
91第7期吴国芳:绍兴图书馆图书检索垂直引擎研究及应用示,本系统主要由3个功能模块组成:用户建模模块、知识加工模块以及垂直搜索服务模块.3.1用户建模模块
用户建模模块,是指通用对用户浏览网站等行为和用户相关的日志进行分析从而形成用户模板库等.IP地址是系统用户最主要的特征,浏览器Cookie能够将相同IP地址下的用户进一步细分.绍兴图书馆图
书检索垂直引擎系统正式采用两者结合进行用户识别.用户的行为可以通过如下方式表示:userInfor=<IP,Cookie,url,rfUrl,pageTitle,stamp,status>.其中url是访问的网址,rfUrl是前一个url,pageTitle是页
面标题,stamp表示当前时间,status表示状态.用户识别以及行为定义之后,系统可以还原用户在网站上的浏览行为并进行跟踪.绍兴图书馆图书检索垂直引擎系统通过用户识别、页面行为跟踪,以及建立用户画像三个过程实现用户行为分析.3.2知识加工模块
知识加工模块用于系统对资源进行加工,资源的加工精度决定了对外服务的质量,主要包括元数据管理以及知识加工等内容.系统各类用户各负其责,知识专家和领域专家对元数据进行管理,知识编辑人员通过知识组织库对图书资源进行标引等知识加工,从而形成特色数据库.本文中的特色数据库,可以采用顺序文件、索引文件、倒排文件等形式来组织.经过知识加工后,能够揭示隐含的有价值的信息.元数据管理包括元数据更新以及发布.元数据存储在专用的数据库中,分为索引目录和关系映射数据库.索引目录用于检索,关系数据库用于元数据与原文的关联记录.元数据仓储提供OAI-DP服务,供其它应用系统调用,并返回XML格式的结果.在绍兴图书馆图书检索垂直引擎系统中知识组织库采用本体来描述.本体可以使用资源表(t_re-source)将类和属性等信息组织起来.本体中的资源采用URI进行唯一标识,而URI是由namespace和lo-calname组成的.字段type记录资源的类型:类、实例、属性.绍兴图书馆图书检索垂直引擎系统存储表结
构信息如表1所示.表1知识组织存储表结构表名包含字段名说明信息t_resourceresourceID,ontology,namespace,localname,type资源表
t_classclassID,className,superclassID,resourceID类表
t_propertypropertyID,propertyName,domain,range,resourceID属性表
t_instanceinstanceID,instanceName,classID,propertyID,value,resourceID实例表
图书检索服务主要涉及到的类包括书籍(Book)、作者(Author)、出版社(Publisher)和读者(Reader).图书检索涉及到的图书类的主要关系有hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes等,主要包括书籍的中文名称、语种、行业、出版时间、字数、价格、作者和借阅次数等信息.系统通过关系的连接,来达到添加信息语义的目的,例如“中文”与类“图书名”相关联形成“中文图书”,“出借次数”与“行业”相关联形成“行业热门书籍”.实例的基本信息存储在单独的实例表t_instance中,实例存储的主要字段有instanceID和instance-Name,以及每个实例的属性及属性值.系统采用基于三元组的存储思想,将instanceID,propertyID和value视为一个三元组,直接存储在表中.3.3垂直搜索服务模块
垂直搜索服务模块是绍兴图书馆图书检索垂直引擎系统对外服务的模块,面对用户输入的响应,尽可能提供给用户满意的结果,提供垂直搜索和个性化资源推荐等服务.相对传统搜索引擎,垂直搜索引擎由于覆盖整个行业,搜索相关性更高,更符合用户意图.同时,绍兴图书馆图书检索垂直引擎系统由于知识组织系统的介入,数据结构化的因素,检索结果更是少而精.垂直搜索流程如图2所示.用户输入检索词后,系统提取用户画像确定其关注的领域信息,然后对用户输入的检索词进行扩展等推理,并将推理结果交给检索模块进行检索,最后向用户返回检索结果.个性化推荐是以用户满意为中心的主动推送服务,是根据用户的不同兴趣和特点,提供有针对性的服