当前位置：文档之家› 中文网页自动摘要系统的研究

中文网页自动摘要系统的研究

网页内容形式丰富 ,Web 文档摘要应该不受领域的限制 ,供各种不确定的用户群体使用。摘要必须能
收稿日期 :2005209230 作者简介 :徐晓丹 (19782) ,女 ,浙江东阳人 ,浙江师范大学信息科学与工程学院讲师 ,研究方向 :软件工程 ,中文信息处理。
© 1995-2008 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
综合上述因素 ,本文使用下面的权重计算公式 :
w(sk) = ∑tki/ uk ×L (sk) ×C(sk)
为了快速获取正文信息 ,我们采用的方法是 :首
图 2 文本结构表示
1. 2 关键词提取一篇文章的关键词集合通常能反映该文章所阐
述的大致内容。本文关键词的提取是基于词频统计基础上的。在分词处理后 ,文章被切分成一个个词 , 对它们进行统计确定出各个词的出现次数。
为了定量地衡量词条的重要性 ,需要给文档 di 中的每个词条 tk 赋予权重 wik 。wik的确定通常使用 TFIDF 方法 ,即综合考虑 tk 在文档 di 中的词频 tfik以及在整个文档集合 D 中的反文档频率 IDF。本文使用下面的公式计算权重 wik :
1 结构分析和统计方法相结合的自动摘要方法
利用机器对文档做自动摘要并非易事。模仿人工摘要的过程是一个有效的途径。对人工摘要过程进行观察后发现 ,文摘员在做摘要前一般需要通读全文 ,把握文档的中心思想和篇章结构 ,从而使文摘尽可能地覆盖文档的有用信息。
本文采用结构分析和统计相结合的方法对 Web 文档作自动摘要。该方法采用拟人思维 ,首先对文档进行结构分析 ,获得段落信息和各级小标题层次信息 ,然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句 ;最后对关键句使用语义距离进行冗余消除后 ,生成文档的摘要。具体过程如图 1 所示。
1. 3 摘要生成
1. 计算句子权值。
基于统计的自动摘要方法一般是选取一定数量
最能代表文章内容的句子组成文摘 ,为了定量地衡量
句子的重要性 ,需要给文档中的每个句子 sk 赋予权重 w(sk) 。根据句子 sk 中各词的词频统计结果来确定句子的初步权值。
在确定 w(sk) 时 ,本文主要考虑以下几个因素 : (1) 句子中包含的词条的重要性。句中词条权重
0 引言
Internet 的发展使用户在线可获取的资源呈指数级增长。在 Web 信息检索中 ,人们有时仅从检出文档的标题和分类无法判断其是否符合要求。如果能进一步给出文档的摘要、关键词 ,那么用户不必浏览全文就可以作出相关性判断 ,这无疑将提高检索的效果和效率。此外 ,用户还能通过关键词和摘要来检索所需文档。可见 ,Web 文档的自动摘要在智能化检索系统中占有相当重要的地位。
大程度上概述了文章的内容。对于出现在这些位置
的句子应该加大权重。
(3) 某些具有特殊标记的句子。如果句子中包含
了“本文论述了”、“本文提出了”、“本文讨论”、“总而
言之”及“综上所述”等等表示概括性的词 ,则说明该
句子能概括文章的意思 ,应该加大权重 ;而那些包含
了“例如”等举例性成分的句子 ,则应该减小权重。
Abstract : Automatic abstracting is a practical and difficult branch in natural language processing , which becomes an important problem in domains such as Internet information retrieval. This paper describes an automatic abstract system to process Chinese Web page , which is mainly based on text structure. The method provided in this paper is to analyze the text structure firstly , obtain the positional informa2 tion of the paragraph and all levels of subtitles information , then uses statistical methods and the heuristic rule to extract key words and key sentences , and finally creates the abstract. Experiments show that this method can generate abstract effectively and efficiently. Key words : automatic abstract ; Chinese Web page ; text structure ; information retrieval
© 1995-2008 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
122
计算机与现代化
2006 年第 9 期
WiK = tfik ×log(N/ nk + 0. 01)
(1)
其中 ,tfik表示词条 tk 在文档 di 中的出现频数 ,N
表示文档集合中包含的所有文档数目 ,nk 为文档集
合中出现过词条 tk 的所有文档数目。
在 Web 文档中 ,一些特殊位置出现的词具有特
殊的重要性 ,因此本文对出现在标题、小标题处的词
再进行加权处理 ,即在 Wij计算中乘以一个比例因子 t 。凡是多处出现的词条 ,仅考虑具有最大值的比例
因子。在本文中 ,经过反复实验比较 ,最终将标题的
目前 ,自动摘要技术总体上分为两类 :基于统计的机械摘要方法和基于知识的理解摘要方法。机械摘要使用统计方法来获取文档的关键词 ,并结合提示词、位置等启发信息 ,从文档中挑选出一些合适的句子 ,进行润色后得到文档的摘要。例如 : kupiec 等人开发的“Trainable Documents Summarizer”[1] ,复旦大学
先建立一个文本块表达式列表 ,通过表达式的匹配提取出包含正文信息的最小文本块 ,然后结合模式匹配和启发式规则剔除夹杂在文本块内的“噪声”,对文本块划分段落 ,最后得到由各个段落组成的文本信息。
2. 标题小标题的提取。在中文网页的自动摘要研究中 ,统计分析表明 , 小标题的识别有助于准确地把握文章的主题。主要体现在两个方面 :正确识别小标题可以很好地把握文章的整体框架 ,理清文章的结构层次 ;同时 ,小标题本身是文章中心内容的高度概括。因此 ,小标题的正确识别能在一定程度上提高文摘的质量。考虑到在网页中同时存在着有标号的小标题和无标号的小标题两种情况 ,我们采用模式匹配和启发式规则相结合的方法来提取小标题。为了提取出多个级别的小标题 ,在处理的时候使用下面的方法 :首先提取出文章的一级小标题 ,然后根据这些小标题将文本划分成若干个文本块 ,将每一个文本块看成一篇文档 ,重复小标题提取和文本块划分的过程 ,直至文本块不能再划分或没有小标题为止。这样 ,不同层次的文本块的一级小标题就组成了文章中各个级别的小标题。限于篇幅 ,关于这方面的详细情况我们另文介绍[6 ] 。 3. 文本结构表示。文本结构分析后 ,识别出文章的标题 ,各级小标题等信息 ,并统计文章的段落、句子的个数 ,每个句子在段中的位置等信息 ,得到如图 2 所示的文本结构信息。
2006 年第 9 期
徐晓丹 :中文网页自动摘要系统的研究
121
够准确、全面地指明文档的内容梗概 ,具备一定的内容覆盖率 ;同时生成的摘要必须达到一定的速度 ,以满足大量 Web 文档的处理需求。为此 ,本文提出了一种结构分析和统计方法相结合的自动摘要方法 ,对其中涉及的结构分析、关键词提取、摘要生成等关键技术进行了深入分析 ,并给出了相应的实验结果和分析。
之和越大 ,则说明句子的重要性可能越大。由于文档
中相当一部分词条对文档内容的影响不大 ,因此可以
只考虑关键词集合中的词。同时 ,词条权重之和应该
除以句子所包含的词条总数 ,得到句子的平均词条权
重 ,从而消除句子长度的影响。
(2) 句子在文章中所处的位置。如首段、末段、段
首、段尾、标题和副标题、子标题等处的句子往往在较
完成的“复旦中文自动文摘系统”[2] 、上海交通大学的 “OA 中文文献自动摘要系统”[3]等。机械摘要具有速度快、领域不受限的特点 ,但生成的摘要质量较差 ,存在反映内容不够全面、语句冗余等问题。理解摘要期望利用各种知识和形式化理论 ,在理解文档语义内容的基础上生成文摘 (对原文的概括或浓缩) 。与机械摘要相比 ,理解摘要质量较好 ,具有简洁精炼、全面准确、可读性强等优点。但是 ,理解摘要不仅要求计算机具有自然语言理解和生成能力 ,还需要表达和组织各种背景、领域知识。这些工作的难度十分巨大 ,迄今为止进展甚微。因此 ,理解摘要方法的使用比较少见 ,仅限于非常狭小的应用领域中。例如 :哈尔滨工业大学实现了一个军事领域的自动文摘实验系统[4] , 北京邮电大学研制的文摘系统 LADIES[5] 。
Research on Automatic Abstracting of Chinese Web Page
XU Xiao2Dan
(College of Information Science & Engineering , Zhejiang Normal University , Jinhua 321004 , China)

e商务文档

中文网页自动摘要系统的研究

相关文档推荐：