TREC 2005增加了企业检索任务(Enterprise Track)并设立了专家检索子任务,为专家检索方法和技术的经验性评价提供了平台,并着重从专家检索算法、模型和评价方法等几方面进行了探讨,极大地促进了专家检索研究的发展。
本文即是在此背景下,对近年来专家检索研究的进展和现状进行的系统总结。
本文分别从专家检索的数据集来源、专家检索方法、专家检索的排序方法、专家检索的效果评价这四个方面对专家检索的相关研究进行了介绍和评述。
进入21世纪,人类社会正在由信息社会迈向知识社会,掌握一定知识、经验和技能的人才将会成为企业和组织最宝贵的资源。
各领域的专家是该领域知识的代表,所拥有的丰富且最新的该领域的专业知识、技能和经验是企业生存和发展的最关键因素。
目前,一些企业和组织,为了提高自身的竞争优势,已经或者正在建立专家检索系统,利于有效地管理专家资源。
专家检索(亦称之为专家查询,专家推荐,专长定位,专长识别)作为实体检索的一个特例,它要求返回的实体类型是具有特定专长(与查询主题相关的)的专家。
由于专家检索在促进知识共享和交流,构建学术界和产业界的桥梁,知识管理等方面有重要的应用价值,近年来专家检索引起了学术界广泛兴趣。
作为web track的后继项目,TREC(Text REtrieval Conferences)于2005年增加了企业检索任务(Enterprise Track),并设立了专家检索子任务。
该子任务可以描述为:给定文档集,查询主题集和专家列表,并从这些专家列表中为每个查询主题查找相关专家。
自设立专家检索子任务后,TREC为专家检索的方法和技术进行经验性评价提供了一个公共平台,近几年来,分别对专家检索算法、模型和评价进行了探讨,促进了专家检索领域的发展。
关于专家检索的任务,Yimam-Seid等界定为以下两个方面:查找具有某专长的专家和查找专家所具有的专长。
目前,检索界所探讨的专家检索一般是指前一个方面。
本文所探讨的专家检索也是指查找具有某专长的专家,故本文中的专家检索主要任务可以描述为:利用企业或者组织内外能够表征专家专长的各种文档和资源,如电子邮件、报告、数据库文件和网页等,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表的过程。
控制、仪器学科前沿讲座 ............................................ 错误!未定义书签。
一、专家检索的数据集来源 (3)1.1传统数据库 (3)1.2企业内部网 (3)1.3外部数据源 (4)二、专家检索方法 (5)2.1 基于专家档案的专家检索 (5)2.2 基于文档的专家检索方法 (8)2.3 基于窗口的专家检索方法 (10)2.4 基于图的专家检索方法 (10)三、专家检索排序方法 (12)3.1 基于语言模型的排序方法 (12)3.2 其它模型 (14)四、专家检索效果的评价 (15)4.1专家检索的三种评价方法 (16)4.2 评价指标 (16)五、总结 (17)参考文献 (17)一、专家检索的数据集来源一般来说,要实现专家检索需要两个必要条件:即专家列表和包含专家专长信息的数据集。
其中,数据集来源可以分为以下三类:1.1传统数据库专家检索的最初数据来源就是在组织中用一个数据库存贮每个候选专家的技能和知识,这些信息都是用户手动添加进去的,其存在以下缺陷:首先,该数据库需要受手动创建和维护,因此费时费力;其次,专家的专长信息是不断更新的,而数据却不易更新,故数据库的信息往往是陈旧的;再者,利用这些数据库进行专家检索时对查询格式有固定的格式化要求,缺乏灵活性。
1.2企业内部网从企业的内部公开网站上获得的企业内部网页、企业内部邮件、企业内部文档、简历、个人主页等可以作为专家专长信息的来源。
如TREC 2005-2008 为专家检索子任务提供了两种数据集,即W3C语料库和CERC语料库,它们都来自于企业内部网站。
①W3C语料库TREC 2005和TREC 2006使用的专家检索数据集是在2004年6月从W3C (Wide Web Consortium)的公开网站(*)上抓取的,其数据集的详细信息如表1所示:表1 W3C数据集文档数平均文档长度(KB)类型范围大小(GB)Email lists 1.855 1 198 394 9.8Code dev 2.578, 62509 43.2Web www 1.043 45,975 23.8Wiki esw esw 0.181 19,605 9.7Misc other 0.047 3,538 14.1Web people 0.003 1,016 3.6All 5.7 331,037 18.1 此外,在这两次的专家检索任务中,W3C给参与者提供了包含1092个候选专家的列表,在候选专家列表中包括了专家的全名和邮件地址。
②CERC语料库TREC 2007和TREC 2008的CERC(CSIRO Enterprise Research Collection)数据集,是于2007年3月从CSIRO的公开网站(*.csiro.au)上抓取的。
该数据集共4.2G,包括了370715个文档,含7,900,000个超链接,其中95%的网页至少包含一个外链接,且这些外链接包含锚文本[8]。
Jiang等指出,CERC中大约89%的文档是网页,4%的文档是pdf、word、rtf、ppt和excel格式的,剩下的文档则是多媒体、xml和log等格式的。
CSIRO没有给参与者提供候选专家列表[10],而只是提供了CSIRO员工邮件地址的一个模板:stname@csiro.au(如:Ming.Wang@csiro.au),所以参与者需在数据集中识别出专家的特征信息(如姓名与邮件地址)。
1.3外部数据源W3C语料库和CERC语料库中的数据集都是企业内部网站上抓取的.但基于这样的一个假设,真正的专家不应该只是在企业或者组织内部有名望,其在可查询到的网络空间(如新闻,博客,学术图书馆)中也可能具有一定的声誉。
TREC 2008以来,研究者们尝试扩展数据集的来源,即从企业内部网扩展到互联网。
也就是说在建立专家档案时不但要考虑企业内部网上的专家证据也要考虑外部网站上的专家证据。
把这些从企业内部网之外所获得的专家证据来源称之为外部数据源。
如一些学术数据库,专利网站或者新闻网站等,都是专家证据的很好来源。
Jennifer等利用google scholar 检索出候选专家的出版物来补充专家档案中候选专家的专长信息;Serdyukov等将整个互联网作为专家证据的来源。
Balog等创建了Uvt 数据集,该数据集是从荷兰蒂尔堡大学网站抓取的多语种信息,获得了多语种的专家证据。
Jiang等利用搜索引擎搜索专家或者专家的相关信息,并将搜索引擎的返回结果作为专家证据的外部数据集。
二、专家检索方法早在 2005年TREC 会议设立专家检索任务之前,其它领域的学者们已对专家检索方法进行了探讨,但并未在检索学界得到较多的关注。
早在1988 年,Streeter 等就通过潜语义标引对研究团体的研究成果(文献)建立索引作为团体专长的一种描述,从而实现自动化的专家检索系统[18]。
Schwartz 等通过电子邮件交互提取出一个专家网络,并通过该网络寻找具有相同兴趣或专长的专家。
Krulwich 等利用讨论组中专家的交流提出了一种具备专家推荐能力的智能中介来向讨论组中的询问者推荐可解答问题的专家。
Pikrakis 等和Cohen 等]分别利用专家访问互联网的日志和专家访问本地文件的日志,结合被访问网页和文档的主题,来实现类似于专家检索的功能。
Mattox 等通过对MITRE 公司内部网络中的文档和专家建立联系,提取专家专长的表示,从而实现专家检索。
Liu 等提出了一种利用RDF (资源描述框架)描述专长的形式,并利用了高等院校中常见的专长资源(专家主页、学术文献、科技报告)来检索专家。
目前,在专家检索领域仍没有一种通用的方法,通过分析近几年来 TREC 专家检索任务中采用的方法,本文将近几年来参与者所采用的方法分为以下四类: 基于专家档案的方法、 基于文档的方法、基于窗口的方法和基于图的方法。
2.1 基于专家档案的专家检索抓取所得数据集合信息抽取建立索引检索并排序与各主题相关的专家列表查询主题专家候选人特征信息(姓名、电子邮箱等)各专家候选人个人描述索引结果集邮件数据库记录文档报告网页……图1 基于专家档案的专家检索流程基于专家档案的专家检索的大体思想是:专家的专长可以通过用一些词语来描述,从各种异构的数据集中抽取出描述专家专长的词,构成对候选专家的个人描述文档。
图1描述的是基于专家档案法的专家检索流程图,从该图中可知:先从各种数据集合中抽取与专家相关的信息,构建各候选专家的个人描述文档,然后对这些描述文档建立索引,最后根据查询主题对这些文档进行排序,从而可得到候选专家的专长得分。
Craswell等在2001年提出用每个专家所在文档中的词语组合成一个虚拟文档(该文档包含了候选专家的知识),最后利用传统的信息检索方法给这些虚拟文档排序。
这种方法可以被归为基于档案的专家检索方法,但该方法将每个文档同等对待,缺乏可行性。
Liu等在2005年提出的利用RDF(资源描述框架)构建专家档案的方法也可归为此类。
在TREC 2005上,一些参与者就采用了创建专家档案的方法:Macdonald 等通过给专家在个人主页,邮件线程,语料库中的出现频次加权来建立专家档案。
Fu等提出了一种文档重组方法,该方法能识别各种对候选专家的描述,重组来自不同媒体格式的相关信息,形成候选专家的档案,且证明了建立专家档案能够减少用户查询的空间。
Zhu 等通过文档集(如该专家所发送的邮件)来表示候选专家,再通过不同信息检索模型(向量空间模型和隐语义模型)来计算文档集与检索主题之间的相似性。
Azzopardi 等根据每个候选专家的姓名和邮件地址来抽取专家信息,然后依据这些信息给每个候选专家建立档案,其实验结果显示,其检索性能好坏关键取决于识别专家姓名的能力。
2006年,Balog在参加TREC 2006的专家检索任务中,提出了专家语言模型,利用信息检索中的语言模型计算专家档案产生查询的概率,以此来给专家排序。
Liu等在基于社区的问答服务中研究了专家检索。
并通过构建不同大小的专家档案来进行研究,最后他们得出这样的结论,专家档案中包含的专家证据越多则越能提高检索性能。
Petkova 和Croft在构建专家档案时,根据文档的格式将其分组,并依据每组中文档对专家档案的贡献给文档加权。
Balog和Rijke将专家档案分为两部分,即包括专家所擅长领域的“主题档案”和包括专家合作网络的“社会档案”,且在给每个候选专家建立档案时进行了过滤,当该专家在某个学科领域里是排名靠前的专家时,该学科领域才被包含在该专家的档案中,这就使得在检索时可以返回该领域较有名气的专家,从而减少了冗余度,但也使得漏检的概率大大增加。