当前位置：文档之家› 基于词典的中文情感倾向文本分析工具

基于词典的中文情感倾向文本分析工具

分析粒度
句子级析， •篇章级文本情感分析的基础。
语言和工具：
使用工具：语言：java 中文分词系统： FudanNLP-1.5 情感词典：知网情感词典
算法分析
1、文本切割转换 2、情感定位 3、情感聚合
1、文本切割转换
•将文档D以换行符”/n”分割成段落P；
W = 1; If 位置（否定词）> 位置（程度词）：W = -1; 意群情感值 = W * 程度词权重 * 情感词权重; end If 位置（否定词）< 位置（程度词）：W = 0.5; 意群情感值 = W * 程度词权重 * 情感词权重; end
如果句子里出现多个否定词，则处理办法为： For n in 所有否定词： W = -1 * W
3、情感聚合
情感值 = 否定词(-1) * 程度词权重 * 情感词权重
篇章级情感倾向通过聚合篇章中所有的句子的情感倾向来计算得出。句子级由句子中所含情感词来计算。
否定词和程度词位置关系
“我很不高兴”——分词之后：我很不高兴
“我不很高兴”——分词之后：我不很高兴
3、情感聚合
2
“我今天很不高兴。”
①经过文本切割转换 [（1，“我” , “代词”），（2，“今天”，“时态词”），（3，“很”， “副词”），（4，“不”， “否定词”），（5，“高兴”，“形容词”）] ②情感定位 [(5，“积极词”，4)， (4, “否定词” ,-1)]， (3, “程度词”,1.25)]
基于词典的中文情感倾向文本分析工具
情感倾向
情感倾向可认为是主体对某一客体主观存在的内心喜恶，内在评价的一种倾向。 •情感倾向方向 •情感倾向度
分析方法
目前，情感倾向分析的方法主要分为两类：
•基于情感词典的方法； •是基于机器学习的方法。
分析粒度
文本情感分析的分析粒度： • 词语； • 句子； • 段落； • 篇章。
3、情感聚合
句子情感值 = sum（意群情感值1，意群情感值2……）段落情感值 = average（句子1情感值，句子2情感值……）
文档情感值 = average（段落1情感值，段落2情感值……）
小
结
最后可以通过整个文章的情感值的正负号以及权值大小来判断情感倾向是积极的还是消极的。
Thank you
常见的否定词如：不、没、无、非、莫、弗、毋、勿、未、否、别、無、休……
否定词和程度副词的优化
当程度副词修饰情感词，该情感词的情感倾向程度发生了变化。
“今天坐了12个小时的车，身体极度疲惫。”
程度副词示例
type | 权值超|over 1.5 很|very 1.25 极其|extreme / 最|most 较|more 1.2 欠|insufficiently 0.5 稍| slightly
•将段落P用中文里常用的句号、分号、问号、感叹号划分句意的符号，切割成不同的句子[“。”,”；”,”？”,”！”] ； • 使用FudanNLP中的分词函数，对短句进行分词。
1、文本切割转换
文本切割的目的是将文本变成我们后续分析需要的格式：
“我今天很不高兴。”
[（1，“我” ,“代词”），（2，“今天”，”时态词”），（3，“很”，” 副词”），（4，“不”，”否定词”），（5，“高兴”，“形容词”）]
2、情感定位
next 单词列表
否
是否为情感词是
标记并存入情感词列表
next
否定词和程度副词的优化
“我今天很不高兴”
否定词的修饰会使情感词语的情感极性发生改变。
多重否定：当否定词出现奇数次时，表示否定意思；当否定词出现偶数次时，表示肯定意思。
否定词典NotDict，并设置其权值为W=-1。

e商务文档

基于词典的中文情感倾向文本分析工具

相关文档推荐：