当前位置：文档之家› 文本情感倾向分析若干问题研究

文本情感倾向分析若干问题研究

复旦大学
硕士学位论文
文本情感倾向分析若干问题研究
姓名：朱嫣岚
申请学位级别：硕士
专业：计算机应用技术
指导教师：吴立德
20070520
为０．００００００，即Ｓ（ｃｌ，ｃ２）＝０．００００００。

第四步，对于语义动态角色为“对应之事件”（ＣｏＥｖｅｎｔ）或“之材料”（ＭａｔｅｒｉａｌＯｆ）的义原，只抽取ＣｏＥｖｅｎｔ，ＭａｔｅｒｉａｌＯｆ中的那部分义原进行相似度计算。

例如，词语‘‘慈善事业”的义项为ＤＥＦ＝｛ａｆｆａｉｒｓｌ事务：ＣｏＥｖｅｎｔ＝｛ＴａｋｅＣａｒｅＩ照料：ｍａｎｎｅｒ＝｛ｖｏｌｕｎｔａｒｙＩ自愿｝）｛ｈｅ｜ｐＩ帮助：ｍａｎｎｅｒ＝｛ｖｏｌｕｎｔａｒｙｌ自愿））），当需要计算“慈善事业”与其他词相似度时，只考虑｛ＴａｋｅＣａｒｅＪ照料：ｍａｎｎｅｒ＝（ｖｏｌｕｎｔａｒｙＩ自愿｝｝｛ｈｅｌｐＩ帮助：ｍａｎｎｅｒ＝｛ｖｏｌｕｎｔａｒｙｌ自愿）））这部分义原。

第五步，对于不能满足１～４的词语。

根据具体情况，使用公式ｓ（朋，Ｐ２）＝—生进行义原间的相似度计算，综合结果并得到义项的相似度。

具体“干“
过程在这罩不做详细的介绍。

ＨｏｗＮｅｔ语义相似度的计算功能是根据刘群的论文【２９】中的原理编写的词汇语义相似度计算程序，实现了义项之间语义相似度的计算。

图一为ＨｏｗＮｅｔ语义相似度功能界面。

通过输入两个词语并分别选取确切的义项，在结果显示框中即可得到相似度的数值。

举个简单的例子，输入词语“好”、“差”，并分别选择相应的义项为“｛ＨｉｇｈＱｕａｌｉｔｙｌ优质）”、“｛ｕｎｑｕａｌｉｆｉｅｄＩ不合格｝”，得到的输出结果为０．０２１０５３，即这两个词语在相应义项下的相似度。

语义相似度主要反映的是词语含义的相似程度。

ＨｏｗＮｅｔ相似度值被定义为０到１之问的一个实数。

至于词与词之间的语义相似度，我们使用了词语两两义项相似度的最大值，希望最大限度的保留词语之间相似性信息。

图２．ＨｏｒＮｅｔ语义相似度计算功能界面
万富翁、财ｔ、百万富翁、财阀等。

第三步，通过ｄｏｍａｉｎ、ＲｅｌａｔｅＴｏ标签，获得输入词属于同一领域的词语和相关词。

例如：“跳球”的义项为ＤＥＦ＝｛ｐｈｅｎｏｍｅｎａＩ现象：ｄｏｍａｉｎ＝｛ｂａｓｋｅｔｂａ…篮球）），根据其中的领域信息ｄｏｍａｉｎ＝｛ｂａｓｋｅｔｂａ…篮球），可以获得同领域的一组词：篮球、篮坛、职业篮球、持球等。

而根据词语“主页”的义项ＤＥＦ＝｛ｒｅａｄ．ｎ９ｓｌ读物：ＲｅｌａｔｅＴｏ＝｛ｉｎｔｅｒｎｅｔｌ［］特网））中的“相关”（ＲｅｌａｔｅＴｏ）属性，可以获得一组相关词，如：超文本传输协议、上传、上载、通信协议等。

第四步，对以上三步获得的词集，根据实体、事件、属性、属性值分成四个大类。

图３为ＨｏｗＮｅｔ语义相关场计算功能界面。

通过输入一个词语并选取词语的某一义项，可以获得与该义项语义相关的一组词，例如，对于“好”这个词，若选择其义项为“｛ＨｉｇｈＱｕａｌｉｔｙｌ优质）ｆ’，即可获得一组语义相关的词语，包括“优良”、“优质”、“良好”、“佳境”、“完好”等。

同时语义相关场的范围（即语义相关词语的数量）可通过参数调整（分三级，从小到大分别是Ｒａｎｋｌ～Ｒａｎｋ３）。

图３．ＨｏｗＮｅｔ语义相关场功能界面
理的临界值，它应该在各个测试集下都表现稳定，并且对于词语的情感倾向判别准确率应高ｊ二使用默认值时的情况。

蚓５是对测试集１和测试集２的实验结果数据进行闽值调整后取得的效果。

这咀所使用的实验结果数掘都是利用ＨｏｗＮｅｔ语义相似度方法，使用４０对基准词进行计算所得到的结果。

图５．阈值调整对实验效果的影响（测试集３）
根掘图５我们发现，判别褒贬倾向的临界值虽然较原始临界值Ｏ有偏大的倾向，但即使在最好的情况下，阂值调整仅仅能使判别准确率比ｌ｜缶界值为０时的情况提高不到１％，对总体性能的改善并没有起到显著的作用。

而且在各个测试集上，产生最好结果的闽值也并不稳定。

因此我们认为，阈值的调整对准确率的提高并不具有显著的作用。

另外，利用在实验中得到的词语情感倾向值列表，我们在中文语料上进行了简单的篇章情感倾向判断实验，该实验所使用的情感倾向值列表共包括测试集１中的６４４５个词语，倾向值计算方法基于ＨｏｗＮｅｔ语义相似度方法，使用基准词的数目为４０对。

在３．１节中已经提到，如果我们仅仅利用倾向词表中词的褒贬倾向，而不涉及具体倾向值，就可以用比较简单的方法计算篇章情感倾向。

有了文档中每个词
复口＾学坝ｆ学位论义义奉情感倾向分析若十问题研究字代表其对应的评价对象，数字代表了对应的评论词的个数。

图８．品牌信誉度分析系统的比较界面４．１．４．信息抽取任务
系统的主要工作是搜集、整理网络上与汽车相关的评论，并对相关评论文章进行情感倾向分析。

系统的核心模块是评论分析模块，它的主要任务就是从评论文章中，分析出这篇评论描述的对象是什么，并且判断出针对该评论对象的情感倾向，通过整理归纳将结果提交给用户。

因此，在信息抽取过程中，对于．』每篇评论，不但耍能够得到情感倾向，即抽取评价词，同时要抽取出其相应的评价对象。

对于评价词，我们可以利用第三章所提到的词汇情感倾向值列表，因为列表中的情感词是领域无关的。

但是由于该词表规模较小，应该根据实际情况进行扩充，构建适用于该系统的评价词Ｏｎｔｏｌｏｇｙ；而对于评价对象，由于汽车领
复ｆ１人。

’＃坝ｔ学位论文立奉情感倾向分析若十问题研究
图１２．使用工具编辑同义词Ｏｎｔｏｌｏｇｙ的示意图
４．３．Ｏｎｔｏｌｏｇｙ扩展
在领域相关的系统中，Ｏｎｔｏｌｏｇｙ中包含的信息大都需要人工收集整理，但是人力毕竟有限，通过人工的方式获得的信息，相对于网络上的海量文本，仍然是少之又少，其信息涵盖面无法满足实际应用的要求，很多评论中出现的评价对象名称、评价词在人工构建的信息中找不到，也就无法被抽取出柬，这对情感倾向分析系统的性能将会造成严重的影响。

因此，我们设计了一些自动或半自动的方法，对０ｎｔｏｌｏｇｙ进行扩展，期望扩展后的Ｏｎｔｏｌｏｇｙ能够匹配更多的评论内容。

e商务文档

文本情感倾向分析若干问题研究

相关文档推荐：