学号_ _ 密级_____________ __武汉大学本科毕业论文组织专家检索系统的设计与实现院(系)名 称:信 息 管 理 学 院专 业 名 称 :信息管理与信息系统学 生 姓 名 :韩 曙 光指 导 老 师 :陆 伟 副 教 授二○○八年五月BACHELOR'S DEGREE THESISOF WUHAN UNIVERSITYDesign and Implementation of Organization Expert Search SystemCollege :School of Information ManagementSubject :Information Management and Information SystemName: Shuguang HanDirected by:Wei Lu,Associate ProfessorMay ,2008摘要Internet的快速发展和互联网相关技术的不断成熟,使得企业(组织)的相关资源纷纷上网,TREC(文本检索国际会议)也因此提出了企业检索任务,主要目标是帮助用户实现在对企业相关数据进行检索的基础上完成特定任务。
企业检索的内容既可以是组织外部的数字资源也可以是组织内部的数字资源,这些数字资源通常以异构的形式存在,如邮件、数据库记录、文档、共享文件等。
组织(企业)专家检索是企业检索的很重要的分支,也是当前垂直信息检索研究的热门领域。
本文总结了目前国内外组织专家检索的研究现状,分析了构建组织专家检索系统的需求和挑战,并以此为基础,利用组织内外部的网页和期刊论文数据库等信息,设计了从数据资源采集、规整、索引、检索到可视化等整个过程的组织专家检索系统模型及以武汉大学为例的专家检索系统平台——WHU-ES。
该系统通过动态定义组织内外表征专家信息的资源列表,设定资源动态更新周期,可实现资源的动态采集、专家专长的智能识别、专家共现聚类关系图的动态生成和分析、专家个人档案信息自动抽取(包括专家肖像提取、专家简介自动识别等)等功能。
此外,本文也分析了构建专家检索系统存在的网页正文抽取、专家姓名重叠、社会网络关系分析等难点,提出了可能的解决方案,最后对WHU-ES专家检索系统做了初步评价。
关键词:专家检索;专长识别;组织检索;专家聚类ABSTRACTThe rapid progress of Internet and related technology make it much easier for us to access the enterprise ( or organization) documents and web pages. As a result, TREC (Text REtrieval Conference) proposed the enterprise retrieval task which purpose is to study enterprise search: satisfying a user who is searching the data of an organization to complete some task. The corpus combines the digital resources with diverse types such as published reports, email, database records, files and shared documents.As an important part of the Enterprise Retrieval, Organization Expert Search ( Expertise Retrieval ) is the current hot area of Vertical Information Retrieval research. Based on the analysis of the requirement and challenges, this paper summarizes the current development of the expert search, and proposes a general architecture of the organization expert search system, which contains data collections, sorting, indexing, retrieving, visualizing and so on, by using the relevant web pages and academic database as the data collections. Then we construct an expert search system taking Wuhan University as an example, which we called WHU-ES for short. This system achieves some specific functions such as the dynamic collection of diverse resources, the intelligent recognition of expertise and the automatic extraction of expert profile (the portrait picture extraction etc.) and so on. We also analyze the difficulties such as Personal Name Resolution, Social Networks Analysis, and Content Extraction, and then provide the possible solutions. At last, we give the preliminary evaluation of the expert search result.Keywords: Expert Search; Expertise Recognition; Organization Search; Expert Clustering目 录中文摘要 (Ⅲ)ABSTRACT....................................................................................................... . (Ⅳ)1 绪论 (1)1.1 引言 (1)1.2 本文研究的内容 (1)1.3 研究的创新点 (2)1.4 本文篇章结构 (2)2 国内外研究现状 (4)2.1 TREC企业专家检索子任务 (4)2.2 现有专家检索系统介绍 (5)2.2.1 MITRE Expert Finder (6)2.2.2 People Finder (6)2.2.3 IBM Small Blue (7)2.3 专家检索其他相关研究 (7)3 组织专家检索系统的分析与设计 (9)3.1系统总体思路 (9)3.2 系统体系结构 (11)3.2.1 Spider模块 (11)3.2.2 Indexer模块 (13)3.2.3 Searcher模块 (14)3.2.4 Assistant模块 (16)3.3 专家检索系统的难点及对策 (16)3.3.1 网页数据噪音剔除 (16)3.3.2 专家姓名重叠问题 (17)3.3.3 专家社会网络分析 (17)4 WHU-ES的实现与评价 (20)4.1 相关软件介绍 (20)4.1.1 Lucene全文检索系统 (20)4.1.2 NetDraw社会网络软件 (20)4.1.3 HttpClient开源项目 (20)4.1.4 CMU的FaceDetect工具 (21)4.2 WHU-ES的实现 (21)4.2.1 初始辅助文档库的定义 (21)4.2.2 专家数据集的动态采集和更新 (21)4.2.3 数据集的规整及索引 (22)4.2.4 专家档案自动生成的实现 (22)4.2.5 Web检索接口的实现和使用 (23)4.3 WHU-ES的初步评价 (25)5 结语和展望 (28)参考文献 (29)本科期间的相关科研成果 (34)附录 (36)1 绪论1.1 引言组织的竞争优势源于其自身知识的集合及学习能力[1]。
根据Delphi Group的调查,组织中最大部分(42%)的知识是存在于员工头脑中的隐性知识[2]。
这使得越来越多的组织意识到对自身知识,尤其是员工头脑中的隐性知识进行有效管理的必要性。
然而识别这些知识并加以直接利用却非易事。
随着Internet的发展,企业、科研教学机构等纷纷构建起自己的网站,使得员工的专长信息及员工头脑中的隐性知识可以通过组织的相关网页(如组织官方网页、相关项目网页、员工主页等)、内部交流和共享的邮件记录等一系列相关文档逐渐间接显化。
因此如何从这些文档中识别出员工的专长进而辅助发现特定专长的专家,促进组织内外部人员的协作、为项目或团队挑选合适的人选、选择项目评审专家、快速发现和寻找合作者等就成为一个现实需要解决的研究课题。
在国际上,该研究属于组织专家检索研究的范畴。
与人工智能领域的专家系统不同,本文所谓组织专家的检索(Expert Search 或 Expertise Retrieval),是指利用组织内外能够表征专家专长的各种文档和资源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表等的过程。
早期组织内专家检索的方法主要是通过建立描述组织内人员专长信息的数据库[3],然而该方法不仅耗费人力财力,而且由于专家的技能和知识存在着分布性、难以量化、难以分级、不断变化的特点[4],使得专家的描述信息具有很强的动态性和模糊性,从而导致数据库方法明显缺乏灵活性。
1.2 本文研究的内容为了满足日益增加的专家检索需求、了解拥有特定专长专家之间的关联、解决专家专长信息的动态变化问题,本文借鉴TREC(文本检索国际会议)组织专家检索的基本方法,构建了一个通用的组织专家检索系统框架模型。
该框架模型可以定义组织内外表征专家信息的资源列表,设定资源动态更新周期,实现信息的动态采集,并结合组织内部专家列表,智能识别组织专家专长。
在专家检索的过程中,实现了特定查询主题下专家列表的排序、专家共现聚类关系图的动态生成和分析、专家档案信息(主要包括专家性别、专家所在学院、专家职称、专家个人简介、专家肖像图片等,下同)的自动抽取等功能。