当前位置：文档之家› 基于文本复杂网络的内容结构特征分析

基于文本复杂网络的内容结构特征分析

本文将句号作为界定句子的唯一标识, 根据 A 矩阵和 W 矩阵的定义, 应用计算机匹配算法, 自动抽取句子关系构成矩阵 A 和 W, 将名词关系映射到矩阵中, 最终借助社会网络分析软件 U CINET, 构建出文本的复杂网络 [ 。 12] 2. 3 文本复杂网络的分析
复杂网络是由点和边构成的, 文本中能够表示完整语义信息的最小单位是句子, 因此本文中用节点表示句子, 以句子为单位进行文本的结构特征分析具有可靠性。边的界定原则是如果两个句子间有一个共同的名词则产生一个边相联, 否则不产生边。如果在网络中的两个句子存在边, 即有一个公共名词, 则可能阐述同一主题或者传达同一主题的补充资料, 虽然两句话可能包含重复冗余的信息, 但两个句子涉及的内容最为密切。通过两个句子之间共同名词的关系来构建复杂网络, 最终得出文本复杂网络。
国内对于文本信息内容结构的研究相对不足, 仅停留在段与段之间的关系研究以及段与句之间层次分析方面, 应用的方法则是潜在语义分析、相似度分析等, 缺少创新性。而国外的研究, 虽然引入新方法研究文本, 但是对于文本结构特征分析方面的研究欠缺。本文通过对单个文本进行预处理, 构建出文本复杂网络, 并利用复杂网络的拓扑性质来分析文本内容结构的好坏, 同时力图用复杂网络的各项拓扑指标来提取文中的中心思想, 帮助读者理解文本信息。
地质资料信息社会化服务模型研究: 基于复杂网络分析
(项目编号:
X IANDA I TU SHU Q INGBAO JISHU 69
情报分析与研究
面。王孟国通过显和隐的分析方法对长篇小说的文本结构问题进行系统研究 [ 1] 。何维等通过对文本信息之间相似度的计算建立句子的关系图, 分析文本的主体句 [ 2] 。梁文婷等通过改进文本结构关系图对文本段与段之间的关系进行研究, 完成文本结构的分析 [ 3] 。刘军万等基于潜在语义的分析技术, 利用层次分析法研究文本结构 [ 4] 。
个节点有联系的节点总数, 网络强度是与某个节点有联系的共同名词的数量 (即是与某个节点有边联系的节点
70 现代图书情报技术
总第 201期 2011年第 1期
的边权重之和 )。度和强度反映了某个句子与其邻接句子的紧密关系, 能够反映文本的主题是否突出。
( 2)最短路径最短路径是测量网络结构中距离最常用的方法, 路径是由从一个节点到另一个节点的不重复边构成, 和网络度、网络节点强度不同的是, 它不仅考虑了节点的近邻节点, 还考虑了间接节点, 节点之间最短路径大于 1。无权网络和有权网络计算最短路径的方法有所不同, 有权网络需要对权重进行转变后再进行计算。该拓扑指标衡量的是某个句子与其他句子的衔接性, 是能够反映文本连贯性和凝聚力的结构特征。 ( 3)聚类系数节点的聚类系数反映了该节点的近邻之间的集团性质, 近邻之间关联越紧密, 该节点的聚类系数就越高, 即近邻句子之间的联系越紧密, 所有节点的聚类系数的平均值便是整个网络的聚类系数。聚类系数是某个句子邻接节点之间的连接关系, 能够反映文本的凝聚力和段落分明的结构特征。
关键词文本复杂网络内容结构最短路径聚类系数分类号 G 203
R esearch on Content Characteristics About Complex N etwork of Text
L iu H onghong An H aizhong G ao X iangyun ( Lab o f R esou rces and Environmen talM anagem en t, Ch ina U n iversity of Geoscien ces, Be ijing 100083, Ch ina) ( S chool ofH um an it ies and Econom icM anagem ent, Ch in a Un ivers ity of G eosc ien ces, Beijing 100083, Ch ina)
2 文本复杂网络的构建与分析
2. 1 文本预处理文本预处理主要包括文本的噪声处理和自动分词
两个过程。噪声处理过程主要是去除停用词和消除歧义, 停用词包括助词、叹词、语气词、拟声词; 歧义消除是指对文本中具有指代意义或者同一语义的词语进行统一, 如文本中同时出现中国人民大学和人大 , 两者表示的意义完全相同, 需要进行唯一化处理。
选用中国科学院计算技术研究所研制的汉语词法
分析系统 ICTCLA S ( In stitu te of Compu ting T echnology, Ch inese Lexical Analys is System ) [11]作为文本自动分词的工具, 该系统不仅支持中文分词和词性标注, 还具有关键词识别和支持用户自定义词典等功能。 ICTCLAS3. 0 分词速度单机 996KB / s, 分词精度达到 98. 45% , 可信度较高, 是现有的比较好的汉语词法分析器。 2. 2 文本网络的构建
K eywords Comp lex network of text Conten t stru cture Shortest path C lu ste的发展, 大量文本涌现出来, 其中包括新闻信息、报告、论文以及散文小说等。大量信息的出现, 给读者阅读和理解带来困难, 这些文本信息的表述内容参差不齐, 如何提取文本中心思想并评价文本内容紧凑和衔接程度的好坏, 目前还主要依据专家的个人经验和主观评价, 缺少量化的评价方法。
总第 201期 2011年第 1期
基于文本复杂网络的内容结构特征分析*
刘红红安海忠高湘昀 ( 中国地质大学资源环境管理实验室北京 100083 ) ( 中国地质大学人文经管学院北京 100083 )
摘要针对文本信息内容结构参差不齐的问题, 提出一种评价文本内容结构分析方法, 该方法将文本中的句子作为节点, 句子之间的共同名词作为边, 构建文本复杂网络, 并选取复杂网络的拓扑性质对文本结构特征进行分析。基于一个新闻文本案例构建复杂网络, 并计算度、强度、最短路径、加权聚类系数等衡量指标, 这些指标能很好地评价文本内容结构的好坏, 也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。
经过预处理后, 将文本中各个句子产生的名词映射到网络中。根据邻接矩阵和 N 阶矩阵权重 ( N 是节点或句子的数量 ) 的概念, 定义两个矩阵 A 和 W, A 矩阵表示句子间边的关系, W 矩阵表示句子的权重。在 A 矩阵中, 如果节点 i和节点 j之间有边的话, 则 aij aji 等于 1, 其他情况都等于 0。W 矩阵中, 边的权重 wijw ji 是节点 i和节点 j中出现共同词的次数。
国外的研究除了包括前文国内的一些分析方法外, 更重要的是随着复杂网络的兴起, 尤其是 1998 年小世界和无标度性质在实际网络中的发现, 推动了自然语言处理的研究 [ 5] , 国外研究者利用复杂网络对文本信息进行分析的研究相对较多, 网络节点 ( 顶点 ) 被用来代表词、句或段落, 而网络边则根据一些任务依赖的标准来进行界定。将复杂网络与文本结合起来的研究, 主要应用于作者评定和散文评价、摘要总结和翻译质量 [ 6] 的评估等方面。 An tiqu eira与 P ardo等在这方面取得了突出的成果, 分别通过构建文本复杂网络并研究其规律, 能够了解作者写作特性, 从而对作者和散文质量进行评定 [ 7, 8] 。 A nt iqueira等通过以句子为节点构建文本复杂网络, 利用网络测量值自动获取文本摘要并对摘要质量进行评价 [ 9, 10] 。
Abstract T o solve the p rob lem of irregu lar stru ctu re of som e texts, th is paper presents a m ethod based on th e comp lex network th eory to evaluate th e text stru ctu re. Th is m ethod u ses a node to represen t a senten ce and an edge b etw een two nodes to rep resent a common w ord of two sen ten ces, wh ich constru ct the com p lex network o f a text. Th en th e au thors ana lyze characters of text stru ctu re by topo log ical ch aracteristics of text com p lex n etwork. By bu ild ing a text comp lex n etwork based on a selected article, th e degree, th e degree of inten sity, th e shortest paths and th e weigh ting clu stering coefficien ts of th is selected art icle are calcu lated. T he resu lts show that th e stru ctu re of th e text con ten t can b e effectively evalu ated by th is proposed m ethod. M oreover, the resu lts also p rov id e mi portant referen ces to understand m ain ideas, to generate sum m aries and to filter tex t retrieval o f a given text.

e商务文档

基于文本复杂网络的内容结构特征分析

相关文档推荐：