信息处理OA 中文文献自动摘要系统1)王永成 许慧敏(上海交通大学电脑应用技术研究所,上海200030)摘要 本文概括地介绍了研究与开发中文文献自动摘要系统的必要性、突破口的选择、发展进化的简史、已达到的最新水平以及实现的诀窍。
关键词 中文 自动摘要 技术诀窍 最新水平OA Automatic Abstracting System on Chinese DocumentsWang Yongcheng and Xu Huimin(Comp uter App lication Tech nology Institute of Shang hai J iao T ong Univ er sity ,S hang hai 200030)Abstract I n t his paper ,the necessity of R&D auto matic abstr act ing sy st em of Chinese docu-ment s ,the cho ice o f the br eakthro ugh po int ,t he brief histor y of developing t he sy st em ,it'skno w ho w and the achiev ed tar g ets are intr o duced br iefly.Keyword Chinese ,aut omatic abstr acting ,technical kno who w ,new achiev ement 作者简介:王永成,男,1939年生,教授。
网络信息智能处理(包括信息检索与中文信息处理)方向的博士导师。
许慧敏,女,1972年生,硕士生。
国家“八六三”“中文自动摘要系统”骨干研究开发人员。
1)本文是国家“八六三”高科技(863-306-04-02-02)成果之一。
1 信息时代与时代的需要信息,通常已被称之为现代社会的三大支柱(信息、能源与材料)之一;三大资源(绿色的植物资源、黑色的矿物资源与灰色的信息资源)之一;是财富的源泉。
但是,要在信息的海洋中寻到你所需要的有用信息不仅要依靠现代先进的电脑检索技术与检索系统,而且最好能够有一个能自动压缩信息甚至能自动提炼信息的智能系统。
为此,国内外都在进行攻关。
经过16年的努力,我们终于取得了巨大的成功〔1,2,3〕。
我们不仅已能成功地对科技文献自动地编制文摘〔4〕,而且也能对新华社电讯稿、报社的社论、领导的报告、个人的简历等外部文献自动地编写摘要。
这样,我们将保证对那些只想了解个大概的有关领导和大量的科技人员有可能迅速摆脱阅读长文之苦,也为报社编写摘要与压缩长文提供一个手段。
为保证系统的质量,我们已对上千篇的新华社电讯稿、人民日报的文稿以及部分科技文献进行文摘的自动编写试验,效果相当好。
本文将简略地介绍我们现有系统所达到的水准、特点以及实现的技术诀窍等。
第16卷 第2期1997年4月情 报 学 报V ol.16,№2A pr il ,19972 对过去文献的三类文摘及研究的突破口过去在一般书上介绍的文摘有二种:(1)指示性或摘录性文摘(Indicative Abstract)。
该类文摘应对文本中的主要内容,特别是其创造性部分利用摘录的办法进行简明地介绍。
美国的《工程索引》、日本的《科技文献速报》等都是这一类的指示性文摘工具。
(2)报道性文摘(Infor mativ e Abstract),又称简介。
该类文摘实际上是对文本题目的一种说明与补充。
苏联的《文摘杂志》、英国德温特公司的《基本专利文摘》等均属这一类。
但是现在,另一种所谓的(3)评论性文摘(Critical Abstract)也受到越来越多的重视。
在这种文摘中,记载了文摘员(通常是一些内行专家)对被摘文本的主观评价。
显然,报道性文摘与评论性文摘都需要对文献作深入的语义理解,并在此基础上对原文作较完整的浓缩或评议。
这对现代电脑来说,“对文献作深入的语义理解”还是一时难以承担的工作。
因摘录性文摘只要用适当的语句指明原文的主题、范围及内容梗概,它可以是以关键词或词组作为骨干,概括地叙述原文的主要内容和主要结论的句子所组成的语义连贯的短文;它亦可用摘取原文中现成的有关句子编辑而成。
另外,根据美国同行的研究报道〔5〕,有人对人工文摘做了部分统计,结果是:手工文摘中的91%的句子都是文中句。
其中79%的句子是完全的照抄;3%的句子是由原文中的句子拼凑而来;4%的句子是原文句改造而来;5%的句子是由原文中的句子拼接再改造而来;只有9%的句子才是人工自撰。
所以,自动文摘的试验一般都是以编制摘录性的文摘作为突破口。
3 研究的发展进化早在1952年,美国的H .P .Luhn 就开始了自动编制文摘方法的研究。
于1958年,他发表了第一篇有关文摘的自动生成方法的文章,从此拉开了自动编制文摘的序幕。
我们因发展全自动化信息检索系统的需要,在80年代也开展了这方面的研究,到1988年,用我们开发的“汉语文献自动编制文献试验系统”(SJT UCAA ),已能对随机地从《情报学报》1983年第一期上抽出的几十篇论文自动地试编文摘,使90%以上的文摘句可达到比较满意的结果。
1990年国家科委组织专家对它进行了鉴定,评为国际领先水平;文汇报曾在头版上刊登了我们在国际上首创的用电脑自动编制中文科技文献文摘的新闻报道。
该报道说:“一篇关于科技情报工作的长达7000字的文章,刹那间被电脑自动摘出300字的要点……”。
以后又受邀到香港以及新加坡进行了讲学与表演。
新加坡《联合早报》与《联合晚报》的负责人曾建议我们迅速地将自动编制文摘的应用领域从中文科技文献迅速开展到对一切文献,特别是政治、经济等社会实用领域。
经过多年的探索,到1992年我们又开发出一个新的“中文文献的自动摘要模型系统”(CAES )。
用该系统,已能对新华社的电讯稿及一般的论文在瞬间按用户需要的长度,编出文笔流畅并能基本上反映文献主题的摘要来。
1993年受邀到日本进行了国际交流。
1292期O A 中文文献自动摘要系统130情 报 学 报16卷 虽然我们在试验方面已取得了不少进展,但因资金限制,始终不成气候。
1995年该项目受到国家八六三专家组的支持与八六三的资助。
我们的工作进展加速,近一年来,我们在更大的规模上对系统进行试验与改进,使系统的功能大大地加强,应用领域也有了进一步地扩大,可靠性与稳定性都有了不同程度的改进,已在商品化方面迈出了可喜的一大步,该成果最近已在近10个单位试用。
1995年9月我们应美国IBM公司的邀请参加了由IBM公司所组织的演示会,我们的成果受到了海内外的重视;同年12月,我们参加了由“八六三”专家办公室所组织的全国同行评测,评测结果已经公布在1996年3月25日的《计算机世界》上。
该评测结果(引文中被括起来的为作者的注解)指出:“单位2(上海交通大学)的文摘(由电脑自动生成)的每一句至少与一位专家(手工摘)的文摘句相重合,与两位以上的专家重合的句子也有7句(对用于评测的文章,由三位专家每人手工摘15句以组成尽量地反映主题的手工文摘,三位专家的文摘句重合的约有8句,两两重合的约10句),而单位1(上海某大学)与单位3(东北某大学)的文摘句的句子与专家们抽取的句子几乎没有重合”,“同日本经济新闻社的做法相比较,……(我国的做法也比较先进)”,显然,我们不仅在速度、功能多样上,而且在摘要质量上都获得了国内外的领先地位。
该系统曾为上海市委书记陈至立同志的讲稿试编其不同长度的摘要,效果很好;1996年4月中旬,上海交通大学人事处就用该自动摘要系统为其加工了9位不同学科领域内的教授人事档案上报教委的材料,获得了极好的效果;1996年4月30日,该项成果正式通过了专家鉴定,被评为居于国内领先地位。
后来,该成果又在上海与新加坡的国际会议上交流表演,受到海内外专家的好评,甚至认为它具有国际领先地位,IBM公司已与我们协商将它移植到IBM的有关机型和系统中。
4 现有系统的特点(1)应用广 该系统已与早期系统有很大不同,因为新系统原则上不限制所应用的领域。
(2)限制少 该系统对文本中的信息很少要求特别标注。
如它能从通常的文本中自动地识别标题、小标题、作者及正文等信息。
这方面完全仿人,具有一定的智能性。
(3)任意长 摘录长度几乎可随心所欲,如要摘的长度不足一句长,则系统自动以文本的20个主题词来代之或提醒用户:你所要的摘录因长度要求已短于一句话,不能实现。
(4)速度快 一篇数千字的文本,在486微机上它能在以秒计的时间内摘好,而修改文摘长度则更是瞬息即成。
(5)质量可 摘出的文摘绝大多数基本反映主题且文字流畅。
(6)功能多 它不仅可摘摘要,而且具有下述功能:¹能自动统计出文本长度;º能方便地给出文中任意字符串或词的频率及标示出它们的出现位置;»能自动地给出文本的主题词;¼能提供人们修改文摘的强有力的工具。
(7)灵活大 ¹它不仅可以自由定义文摘长,也可根据习惯自定文摘长;º它不仅可以摘主题句,也可用次要句去填长度;»它还可根据用户的偏好进行定向摘录。
(8)发展易 我们曾留下不少接口,可便于移植与发展。
(9)使用便 本系统的操作使用力争“傻子化”,一般人只要“上机即明”,无需培训。
(10)前景好 我们拟与兄弟单位的声音、文字识别的先进研究成果联结,与声音输出的最新成果联结,使其具有非常广泛的应用前景。
5 技 术 关 键我们曾用专文介绍过我们近来所获得的成就的经验,这就是:“仿人—这是在电脑上研制与开发高级算法的捷径”。
仿人,选突破口,先易后难,稳步迈进,坚持不懈,这几乎就是我们的全部诀窍。
所谓仿人,就是尽可能地把由人类以万年计积累的工作或生活经验移植到电脑上,当然,由于人与电脑不是一回事,因此,最适合人所使用的方法并不一定也最适合于电脑使用。
但是,根据我们的实践经验表明:人通常所使用的方法往往是一种接近最佳的方法,认真地学习和研究它,一定会对我们创建新的电脑算法有很多的启发,它往往比查几十篇文献更富启示,特别是对前人尚未涉足或还很少涉足的领域尤为如此。
浏览全文,根据行文编辑规律以及全文的叙述,判明文章的外部特征。
并借助上述判断尽力抓准文献的主题。
再根据文献主题及文献的八股性特点(我们认为:任何文献都遵循一定的书写格式与规律要求,这就是我们戏称的文献的八股性)我们首先获得文献的文摘候选句。
下述人工文摘的经验可作为我们解决如何从原文中摘取一些能反映文献的中心思想与关键内容的句子的参考:(1)大多原文中有些句子具有切题性,而这些句子通常处于文献的前言、绪论或节、段的开头与结尾部分。