当前位置:文档之家› 中文网页自动摘要系统的研究

中文网页自动摘要系统的研究

网页内容形式丰富 ,Web 文档摘要应该不受领域 的限制 ,供各种不确定的用户群体使用 。摘要必须能
收稿日期 :2005209230 作者简介 :徐晓丹 (19782) ,女 ,浙江东阳人 ,浙江师范大学信息科学与工程学院讲师 ,研究方向 :软件工程 ,中文信息处理 。
© 1995-2008 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
综合上述因素 ,本文使用下面的权重计算公式 :
w(sk) = ∑tki/ uk ×L (sk) ×C(sk)
为了快速获取正文信息 ,我们采用的方法是 :首
图 2 文本结构表示
1. 2 关键词提取 一篇文章的关键词集合通常能反映该文章所阐
述的大致内容 。本文关键词的提取是基于词频统计 基础上的 。在分词处理后 ,文章被切分成一个个词 , 对它们进行统计确定出各个词的出现次数 。
为了定量地衡量词条的重要性 ,需要给文档 di 中的每个词条 tk 赋予权重 wik 。wik的确定通常使用 TFIDF 方法 ,即综合考虑 tk 在文档 di 中的词频 tfik以 及在整个文档集合 D 中的反文档频率 IDF。本文使 用下面的公式计算权重 wik :
1 结构分析和统计方法相结合的自动 摘要方法
利用机器对文档做自动摘要并非易事 。模仿人 工摘要的过程是一个有效的途径 。对人工摘要过程 进行观察后发现 ,文摘员在做摘要前一般需要通读全 文 ,把握文档的中心思想和篇章结构 ,从而使文摘尽 可能地覆盖文档的有用信息 。
本文采用结构分析和统计相结合的方法对 Web 文档作自动摘要 。该方法采用拟人思维 ,首先对文档 进行结构分析 ,获得段落信息和各级小标题层次信 息 ,然后综合这些结构信息使用统计方法和启发式规 则来提取文档的关键词 、关键句 ;最后对关键句使用 语义距离进行冗余消除后 ,生成文档的摘要 。具体过 程如图 1 所示 。
1. 3 摘要生成
1. 计算句子权值 。
基于统计的自动摘要方法一般是选取一定数量
最能代表文章内容的句子组成文摘 ,为了定量地衡量
句子的重要性 ,需要给文档中的每个句子 sk 赋予权 重 w(sk) 。根据句子 sk 中各词的词频统计结果来确 定句子的初步权值 。
在确定 w(sk) 时 ,本文主要考虑以下几个因素 : (1) 句子中包含的词条的重要性 。句中词条权重
0 引 言
Internet 的发展使用户在线可获取的资源呈指数 级增长 。在 Web 信息检索中 ,人们有时仅从检出文 档的标题和分类无法判断其是否符合要求 。如果能 进一步给出文档的摘要 、关键词 ,那么用户不必浏览 全文就可以作出相关性判断 ,这无疑将提高检索的效 果和效率 。此外 ,用户还能通过关键词和摘要来检索 所需文档 。可见 ,Web 文档的自动摘要在智能化检索 系统中占有相当重要的地位 。
大程度上概述了文章的内容 。对于出现在这些位置
的句子应该加大权重 。
(3) 某些具有特殊标记的句子 。如果句子中包含
了“本文论述了”、“本文提出了”、“本文讨论”、“总而
言之”及“综上所述”等等表示概括性的词 ,则说明该
句子能概括文章的意思 ,应该加大权重 ;而那些包含
了“例如”等举例性成分的句子 ,则应该减小权重 。
Abstract : Automatic abstracting is a practical and difficult branch in natural language processing , which becomes an important problem in domains such as Internet information retrieval. This paper describes an automatic abstract system to process Chinese Web page , which is mainly based on text structure. The method provided in this paper is to analyze the text structure firstly , obtain the positional informa2 tion of the paragraph and all levels of subtitles information , then uses statistical methods and the heuristic rule to extract key words and key sentences , and finally creates the abstract. Experiments show that this method can generate abstract effectively and efficiently. Key words : automatic abstract ; Chinese Web page ; text structure ; information retrieval
© 1995-2008 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
122
计 算 机 与 现 代 化
2006 年第 9 期
WiK = tfik ×log(N/ nk + 0. 01)
(1)
其中 ,tfik表示词条 tk 在文档 di 中的出现频数 ,N
表示文档集合中包含的所有文档数目 ,nk 为文档集
合中出现过词条 tk 的所有文档数目 。
在 Web 文档中 ,一些特殊位置出现的词具有特
殊的重要性 ,因此本文对出现在标题 、小标题处的词
再进行加权处理 ,即在 Wij计算中乘以一个比例因子 t 。凡是多处出现的词条 ,仅考虑具有最大值的比例
因子 。在本文中 ,经过反复实验比较 ,最终将标题的
目前 ,自动摘要技术总体上分为两类 :基于统计 的机械摘要方法和基于知识的理解摘要方法 。机械 摘要使用统计方法来获取文档的关键词 ,并结合提示 词 、位置等启发信息 ,从文档中挑选出一些合适的句 子 ,进行润色后得到文档的摘要 。例如 : kupiec 等人 开发的“Trainable Documents Summarizer”[1] ,复旦大学
先建立一个文本块表达式列表 ,通过表达式的匹配提 取出包含正文信息的最小文本块 ,然后结合模式匹配 和启发式规则剔除夹杂在文本块内的“噪声”,对文本 块划分段落 ,最后得到由各个段落组成的文本信息 。
2. 标题小标题的提取 。 在中文网页的自动摘要研究中 ,统计分析表明 , 小标题的识别有助于准确地把握文章的主题 。主要 体现在两个方面 :正确识别小标题可以很好地把握文 章的整体框架 ,理清文章的结构层次 ;同时 ,小标题本 身是文章中心内容的高度概括 。因此 ,小标题的正确 识别能在一定程度上提高文摘的质量 。 考虑到在网页中同时存在着有标号的小标题和 无标号的小标题两种情况 ,我们采用模式匹配和启发 式规则相结合的方法来提取小标题 。为了提取出多 个级别的小标题 ,在处理的时候使用下面的方法 :首 先提取出文章的一级小标题 ,然后根据这些小标题将 文本划分成若干个文本块 ,将每一个文本块看成一篇 文档 ,重复小标题提取和文本块划分的过程 ,直至文 本块不能再划分或没有小标题为止 。这样 ,不同层次 的文本块的一级小标题就组成了文章中各个级别的 小标题 。限于篇幅 ,关于这方面的详细情况我们另文 介绍[6 ] 。 3. 文本结构表示 。 文本结构分析后 ,识别出文章的标题 ,各级小标题 等信息 ,并统计文章的段落、句子的个数 ,每个句子在段 中的位置等信息 ,得到如图 2 所示的文本结构信息。
2006 年第 9 期
徐晓丹 :中文网页自动摘要系统的研究
121
够准确 、全面地指明文档的内容梗概 ,具备一定的内 容覆盖率 ;同时生成的摘要必须达到一定的速度 ,以 满足大量 Web 文档的处理需求 。为此 ,本文提出了 一种结构分析和统计方法相结合的自动摘要方法 ,对 其中涉及的结构分析 、关键词提取 、摘要生成等关键 技术进行了深入分析 ,并给出了相应的实验结果和分 析。
之和越大 ,则说明句子的重要性可能越大 。由于文档
中相当一部分词条对文档内容的影响不大 ,因此可以
只考虑关键词集合中的词 。同时 ,词条权重之和应该
除以句子所包含的词条总数 ,得到句子的平均词条权
重 ,从而消除句子长度的影响 。
(2) 句子在文章中所处的位置 。如首段 、末段 、段
首 、段尾 、标题和副标题 、子标题等处的句子往往在较
完成的“复旦中文自动文摘系统”[2] 、上海交通大学的 “OA 中文文献自动摘要系统”[3]等 。机械摘要具有速 度快 、领域不受限的特点 ,但生成的摘要质量较差 ,存 在反映内容不够全面 、语句冗余等问题 。理解摘要期 望利用各种知识和形式化理论 ,在理解文档语义内容 的基础上生成文摘 (对原文的概括或浓缩) 。与机械 摘要相比 ,理解摘要质量较好 ,具有简洁精炼 、全面准 确 、可读性强等优点 。但是 ,理解摘要不仅要求计算 机具有自然语言理解和生成能力 ,还需要表达和组织 各种背景 、领域知识 。这些工作的难度十分巨大 ,迄 今为止进展甚微 。因此 ,理解摘要方法的使用比较少 见 ,仅限于非常狭小的应用领域中 。例如 :哈尔滨工 业大学实现了一个军事领域的自动文摘实验系统[4] , 北京邮电大学研制的文摘系统 LADIES[5] 。
Research on Automatic Abstracting of Chinese Web Page
XU Xiao2Dan
(College of Information Science & Engineering , Zhejiang Normal University , Jinhua 321004 , China)
相关主题