当前位置:文档之家› 文本情感倾向分析若干问题研究

文本情感倾向分析若干问题研究

复旦大学
硕士学位论文
文本情感倾向分析若干问题研究
姓名:朱嫣岚
申请学位级别:硕士
专业:计算机应用技术
指导教师:吴立德
20070520
为0.000000,即S(cl,c2)=0.000000。

第四步,对于语义动态角色为“对应之事件”(CoEvent)或“之材料”(MaterialOf)的义原,只抽取CoEvent,MaterialOf中的那部分义原进行相似度计算。

例如,词语‘‘慈善事业”的义项为DEF={affairsl事务:CoEvent={TakeCareI照料:manner={voluntaryI自愿}){he|pI帮助:manner={voluntaryl自愿))),当需要计算“慈善事业”与其他词相似度时,只考虑{TakeCareJ照料:manner=(voluntaryI自愿}}{helpI帮助:manner={voluntaryl自愿)))这部分义原。

第五步,对于不能满足1~4的词语。

根据具体情况,使用公式s(朋,P2)=—生进行义原间的相似度计算,综合结果并得到义项的相似度。

具体“干“
过程在这罩不做详细的介绍。

HowNet语义相似度的计算功能是根据刘群的论文【29】中的原理编写的词汇语义相似度计算程序,实现了义项之间语义相似度的计算。

图一为HowNet语义相似度功能界面。

通过输入两个词语并分别选取确切的义项,在结果显示框中即可得到相似度的数值。

举个简单的例子,输入词语“好”、“差”,并分别选择相应的义项为“{HighQualityl优质)”、“{unqualifiedI不合格}”,得到的输出结果为0.021053,即这两个词语在相应义项下的相似度。

语义相似度主要反映的是词语含义的相似程度。

HowNet相似度值被定义为0到1之问的一个实数。

至于词与词之间的语义相似度,我们使用了词语两两义项相似度的最大值,希望最大限度的保留词语之间相似性信息。

图2.HorNet语义相似度计算功能界面
万富翁、财t、百万富翁、财阀等。

第三步,通过domain、RelateTo标签,获得输入词属于同一领域的词语和相关词。

例如:“跳球”的义项为DEF={phenomenaI现象:domain={basketba…篮球)),根据其中的领域信息domain={basketba…篮球),可以获得同领域的一组词:篮球、篮坛、职业篮球、持球等。

而根据词语“主页”的义项DEF={read.n9sl读物:RelateTo={internetl[]特网))中的“相关”(RelateTo)属性,可以获得一组相关词,如:超文本传输协议、上传、上载、通信协议等。

第四步,对以上三步获得的词集,根据实体、事件、属性、属性值分成四个大类。

图3为HowNet语义相关场计算功能界面。

通过输入一个词语并选取词语的某一义项,可以获得与该义项语义相关的一组词,例如,对于“好”这个词,若选择其义项为“{HighQualityl优质)f’,即可获得一组语义相关的词语,包括“优良”、“优质”、“良好”、“佳境”、“完好”等。

同时语义相关场的范围(即语义相关词语的数量)可通过参数调整(分三级,从小到大分别是Rankl~Rank3)。

图3.HowNet语义相关场功能界面
理的临界值,它应该在各个测试集下都表现稳定,并且对于词语的情感倾向判别准确率应高j二使用默认值时的情况。

蚓5是对测试集1和测试集2的实验结果数据进行闽值调整后取得的效果。

这咀所使用的实验结果数掘都是利用HowNet语义相似度方法,使用40对基准词进行计算所得到的结果。

图5.阈值调整对实验效果的影响(测试集3)
根掘图5我们发现,判别褒贬倾向的临界值虽然较原始临界值O有偏大的倾向,但即使在最好的情况下,阂值调整仅仅能使判别准确率比l|缶界值为0时的情况提高不到1%,对总体性能的改善并没有起到显著的作用。

而且在各个测试集上,产生最好结果的闽值也并不稳定。

因此我们认为,阈值的调整对准确率的提高并不具有显著的作用。

另外,利用在实验中得到的词语情感倾向值列表,我们在中文语料上进行了简单的篇章情感倾向判断实验,该实验所使用的情感倾向值列表共包括测试集1中的6445个词语,倾向值计算方法基于HowNet语义相似度方法,使用基准词的数目为40对。

在3.1节中已经提到,如果我们仅仅利用倾向词表中词的褒贬倾向,而不涉及具体倾向值,就可以用比较简单的方法计算篇章情感倾向。

有了文档中每个词
复口^学坝f学位论义义奉情感倾向分析若十问题研究字代表其对应的评价对象,数字代表了对应的评论词的个数。

图8.品牌信誉度分析系统的比较界面4.1.4.信息抽取任务
系统的主要工作是搜集、整理网络上与汽车相关的评论,并对相关评论文章进行情感倾向分析。

系统的核心模块是评论分析模块,它的主要任务就是从评论文章中,分析出这篇评论描述的对象是什么,并且判断出针对该评论对象的情感倾向,通过整理归纳将结果提交给用户。

因此,在信息抽取过程中,对于.』每篇评论,不但耍能够得到情感倾向,即抽取评价词,同时要抽取出其相应的评价对象。

对于评价词,我们可以利用第三章所提到的词汇情感倾向值列表,因为列表中的情感词是领域无关的。

但是由于该词表规模较小,应该根据实际情况进行扩充,构建适用于该系统的评价词Ontology;而对于评价对象,由于汽车领
复f1人。

’#坝t学位论文立奉情感倾向分析若十问题研究
图12.使用工具编辑同义词Ontology的示意图
4.3.Ontology扩展
在领域相关的系统中,Ontology中包含的信息大都需要人工收集整理,但是人力毕竟有限,通过人工的方式获得的信息,相对于网络上的海量文本,仍然是少之又少,其信息涵盖面无法满足实际应用的要求,很多评论中出现的评价对象名称、评价词在人工构建的信息中找不到,也就无法被抽取出柬,这对情感倾向分析系统的性能将会造成严重的影响。

因此,我们设计了一些自动或半自动的方法,对0ntology进行扩展,期望扩展后的Ontology能够匹配更多的评论内容。

相关主题