当前位置:文档之家› 基于文本复杂网络的内容结构特征分析

基于文本复杂网络的内容结构特征分析

本文将句号作为界 定句子的 唯一标 识, 根据 A 矩 阵和 W 矩阵的 定义, 应用 计算 机匹 配算 法, 自 动抽 取 句子关系构 成 矩阵 A 和 W, 将名 词 关 系 映射 到 矩 阵 中, 最终借 助社会网 络分析 软件 U CINET, 构建出文 本 的复杂网络 [ 。 12] 2. 3 文本复杂网络的分析
复杂 网络是 由点和边 构成的, 文本中 能够表示 完 整语义信 息的最 小单位是 句子, 因 此本文 中用节点 表 示句子, 以句子为 单位进 行文本的 结构特 征分析具 有 可靠性。边的界定原则是如果两个句子间有一个共 同 的名词则产生一 个边相 联, 否则 不产 生边。如 果在 网 络中的两个句子存在边, 即有一个公共名词, 则可能 阐 述同一主 题或者 传达同一 主题的 补充资料, 虽然两 句 话可能包 含重复 冗余的信 息, 但两 个句子 涉及的内 容 最为密切。通过两个句子之间共同名词的关系来构 建 复杂网络, 最终得出文本复杂网络。
国 内对于文 本信息 内容结构 的研究 相对不足, 仅 停留在段与段之间的关系研究以及段与句之间层 次分 析方面, 应用 的方 法 则是 潜 在语 义 分析、相 似度 分 析 等, 缺少创新性。而国外的研究, 虽然 引入新方法 研究 文本, 但是对 于文 本 结构 特 征分 析 方面 的 研究 欠 缺。 本文通 过对单个 文本进 行预处理, 构建出 文本复杂 网 络, 并利 用复杂网 络的拓 扑性质来 分析文 本内容结 构 的好坏, 同时力图 用复杂 网络的各 项拓扑 指标来提 取 文中的中心思想, 帮助读者理解文本信息。
地质 资料 信息社 会化 服务 模型 研究: 基 于复 杂网 络分 析
(项 目编 号:
X IANDA I TU SHU Q INGBAO JISHU 69
情报分析与研 究
面。王孟国通过 显 和 隐 的 分析 方法 对长 篇小 说 的文本结构问题进行系统研究 [ 1] 。何维等通过对 文本 信息之 间相似度 的计算 建立句子 的关系 图, 分析文 本 的主体句 [ 2] 。梁文婷等通过改进文本结构关系图 对文 本段与段 之 间 的 关 系 进行 研 究, 完 成 文 本 结 构 的 分 析 [ 3] 。刘军万等基于潜 在语 义的分 析技 术, 利 用层 次 分析法研究文本结构 [ 4] 。
个节点有联系的节点总数, 网络强度是与某个节点有联 系的共同名词的数量 (即是与某个节点有边联系的节点
70 现代图书情报技术
总第 201期 2011年 第 1期
的边权重之和 )。度和强度反映了某个句子与其邻接句 子的紧密关系, 能够反映文本的主题是否突出。
( 2)最短路径 最 短路径是 测量网 络结构中 距离最 常用的方 法, 路径是 由从一个 节点到 另一个节 点的不 重复边构 成, 和网络度、网络节点强度不同的是, 它不仅考虑了 节点 的近邻节点, 还考虑了间接节点, 节点之间最短路 径大 于 1。无权网络和有权网 络计算最 短路径 的方法有 所 不同, 有权网 络需 要 对权 重 进行 转 变后 再 进行 计 算。 该拓扑 指标衡量 的是某 个句子与 其他句 子的衔接 性, 是能够反映文本连贯性和凝聚力的结构特征。 ( 3)聚类系数 节点的聚类系数反映了该节点的近邻之间的 集团 性质, 近邻之 间关 联 越紧 密, 该节 点 的聚 类 系数 就 越 高, 即近邻句子之间的联系越紧密, 所有节点的聚 类系 数的平均值便是整个网络的聚类系数。聚类系数 是某 个句子 邻接节点 之间的 连接关系, 能够反 映文本的 凝 聚力和段落分明的结构特征。
关键词 文本复杂网络 内容结构 最短路径 聚类系数 分类号 G 203
R esearch on Content Characteristics About Complex N etwork of Text
L iu H onghong An H aizhong G ao X iangyun ( Lab o f R esou rces and Environmen talM anagem en t, Ch ina U n iversity of Geoscien ces, Be ijing 100083, Ch ina) ( S chool ofH um an it ies and Econom icM anagem ent, Ch in a Un ivers ity of G eosc ien ces, Beijing 100083, Ch ina)
2 文本复杂网络的构建与分析
2. 1 文本预处理 文本预处理主要包括文本的噪声处理和自动 分词
两个过程。噪声处理过程主要是去除停用词和消 除歧 义, 停用词包括助 词、叹词、语气词、拟声 词; 歧 义消 除 是指对文本中具有指代意义或者同一语义的词语 进行 统一, 如文本中同时 出现 中国 人民 大学 和 人大 , 两者表示的意义完全相同, 需要进行唯一化处理。
选用中国科学院计算技术研究所研制的汉语 词法
分析 系 统 ICTCLA S ( In stitu te of Compu ting T echnology, Ch inese Lexical Analys is System ) [11]作为文本自动分词的 工具, 该系统不仅支持中文分词 和词性标注, 还具有关 键词识别和支持用户自 定义词典等 功能。 ICTCLAS3. 0 分词速度单机 996KB / s, 分词精度达到 98. 45% , 可信度 较高, 是现有的比较好的汉语词法分析器。 2. 2 文本网络的构建
K eywords Comp lex network of text Conten t stru cture Shortest path C lu ste的发展, 大量文 本涌现 出来, 其中包 括新闻 信息、报告、论 文以 及散文 小说 等。大量信 息的 出 现, 给读者阅读和理解带来困难, 这些文本信息的表述内容 参差不 齐, 如何提 取文本 中心思想 并评价 文本内容 紧 凑和衔接程度的好坏, 目前还主要依据专家的个人经验和主观评价, 缺少量化的评价方法。
总第 201期 2011年 第 1期
基于文本复杂网络的内容结构特征分析*
刘红红 安海忠 高湘昀 ( 中国地质大学资源环境管理实验室 北京 100083 ) ( 中国地质大学人文经管学院 北京 100083 )
摘要 针对文本信息内容结构参差不齐的问题, 提出一种 评价文 本内容结 构分析 方法, 该方 法将文 本中的句 子 作为节点, 句子之间的共同名词作为边, 构建文本复杂网络, 并选取 复杂网络 的拓扑 性质对文 本结构 特征进行 分 析。基于一个新闻文本案例构建复杂网络, 并计算度、强 度、最短路 径、加权 聚类系数 等衡量 指标, 这 些指标能 很 好地评价文本内容结构的好坏, 也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。
经过 预处理 后, 将文 本中各个 句子产 生的名词 映 射到网络中。根据邻接矩 阵和 N 阶矩阵 权重 ( N 是 节 点或句子的数量 ) 的概念, 定义两 个矩阵 A 和 W, A 矩 阵表示句子间边的关系, W 矩 阵表 示句子 的权重。 在 A 矩阵中, 如 果节点 i和节点 j之间有 边的话, 则 aij aji 等于 1, 其他情况都等于 0。W 矩阵中, 边的 权重 wijw ji 是节点 i和节点 j中出现共同词的次数。
国外的 研究 除了 包括 前 文国 内 的一 些 分析 方 法 外, 更重要的是随着 复杂 网络 的兴 起, 尤 其是 1998 年 小世界 和无标度 性质在 实际网络 中的发 现, 推动了 自 然语言处理的研 究 [ 5] , 国外 研究者 利用 复杂网 络对 文 本信息进行分析的研究 相对较 多, 网络节 点 ( 顶点 ) 被 用来代表词、句或段落, 而网络边则根据一些任务 依赖 的标准来进行界定。将复杂网络与文本结合起来 的研 究, 主要应用于作者评定和散文评价、摘要总结和 翻译 质量 [ 6] 的评估等方面。 An tiqu eira与 P ardo等在这 方面 取得了 突出的成 果, 分别 通过构建 文本复 杂网络并 研 究其规律, 能够了解作者写作特性, 从而对作者和 散文 质量进行评定 [ 7, 8] 。 A nt iqueira等通过以句 子为节点 构 建文本 复杂网络, 利用网 络测量值 自动获 取文本摘 要 并对摘要质量进行评价 [ 9, 10] 。
Abstract T o solve the p rob lem of irregu lar stru ctu re of som e texts, th is paper presents a m ethod based on th e comp lex network th eory to evaluate th e text stru ctu re. Th is m ethod u ses a node to represen t a senten ce and an edge b etw een two nodes to rep resent a common w ord of two sen ten ces, wh ich constru ct the com p lex network o f a text. Th en th e au thors ana lyze characters of text stru ctu re by topo log ical ch aracteristics of text com p lex n etwork. By bu ild ing a text comp lex n etwork based on a selected article, th e degree, th e degree of inten sity, th e shortest paths and th e weigh ting clu stering coefficien ts of th is selected art icle are calcu lated. T he resu lts show that th e stru ctu re of th e text con ten t can b e effectively evalu ated by th is proposed m ethod. M oreover, the resu lts also p rov id e mi portant referen ces to understand m ain ideas, to generate sum m aries and to filter tex t retrieval o f a given text.
相关主题