当前位置:文档之家› 红楼梦文本分析

红楼梦文本分析

编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):







全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
对《红楼梦》文本的计算机识别方法的研究与设计
摘要
本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名):1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
最后说明模型的优缺点及需要改进的地方。
关键字:系统聚类 计算风格学 文本层次分析
一、问题重述
文本(text),与 讯息(message)的意义大致相同,是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的表述方式,意图和目的。
将上述研究结果写成综合性的研究报告。
二、问题分析Байду номын сангаас
本问题主要是通过不同的文本分析角度,建立数学模型,实现对文本的识别,来推断文本提供者的表述方式,意图和目的。
对于问题一,根据物理结构和逻辑结构两个角度确立我们文本分析角度,物理结构方面,通过计算文本虚词使用频率确定作者的行文风格;逻辑结构方面,以红楼梦主要人物名字为特征值对人物关系进行分析,和以标题词汇为特征值的文本层次分析。使用聚类和层次分析法建模。
(1)从第一回--第四十回,第四十一回--第八十回,第八十一回--第一百二十回分别选取3段文字(每段不少于2000字,指出开始,结束的页码和行数)作为3个样本,对这3个样本提出文本分析的角度,特征项的选取及数量表征,并建立数学模型。
(2)分别估计3个模型的参数,并对模型进行检验。
(3)基于你们的模型,对3个文本进行比较分析(包括相同点和它们之间的差异性分析)。
针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。
针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。
日期:年月日
赛区评阅编号(由赛区组委会评阅前进行编号):
队员信息表(必须如实填写)
学号
姓名
所属院
专业
年级
电话
指导教师
是否有笔记本
周怡
数学与统计学院
统计学
2011
未选定
段熙玉
数学与统计学院
统计学
2011
未选定
林阳
机电与信息工程
软件工程
2010
未选定
注:如未选定指导教师可不填写“指导教师”一栏。
2013高教社杯全国大学生数学建模竞赛(选拔赛)
针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。
在分析问题是我们了解到目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。因此,在处理问题时角度和特征项的选择是关键。我们要解决的问题是:
对于问题三,分别选取三个样本中的虚词频率和人物分析进行比较。通过虚词频率的比较我们可以大致分析出各四十回中作者的行文风格从而判断红楼梦作者是否为一人;而对人物分析方面,对人物与人物之间关联度的比较,能大致确立出在整篇文章中的主要人物和与其关联密切的人物的关系进展,通过关联度相同性与差异性的比较,确立主要人物的日常交际圈和主要人物之间的关系变化。
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
对于问题二,运用所建立的模型对选择样本进行运算,得到文本总字数,虚词的使用情况,人物关系情况由聚类法得到,再将文本由标题词汇判定段落分层。在模型检验方面,我们由人为读出的结论与模型得到的人物关系进行大致方向上的比较,由分段后主要人物在各层次所占比重判断层次分析的精确性,作者行文风格通过所得结论与专家推断比较检验。
2013高教社杯全国大学生数学建模竞赛(选拔赛)
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
相关主题