当前位置:
文档之家› 基于词典的中文情感倾向文本分析工具
基于词典的中文情感倾向文本分析工具
2、情感定位
next 单词列表
否
是否为情
感词
是
next 标记并存入情感词列
表
否定词和程度副词的优化
“我今天很不高兴”
?否定词的修饰会使情感词语的情感极性发生改变。
?多重否定:当否定词出现奇数次时,表示否定意思; 当否定词出现偶数次时,表示肯定意思。
?否定词典NotDict,并设置其权值为W=-1。 常见的否定词如: 不、没、无、非、莫、弗、毋、勿、未、否、别、無、 休……
分析粒度
句子级的情感倾向分析:
?解决较短文本的情感分析, ?篇章级文本情感分析的基础。
语言和工具:
使用工具: 语言:java 中文分词系统: FudanNLP-1.5 情感词典:知网情感词典
算法分析
1、文本切割转换 2、情感定位 3、情感聚合
1、文本切割转换
?将文档D以换行符”/n分”割成段落 P; ?将段落P用中文里常用的句号、分号、问号、感叹号划
W = 1; If
位置(否定词) > 位置(程度词): W = -1; 意群情感值 = W * 程度词权重 * 情感词权重 ; end If
位置(否定词) < 位置(程度词): W = 0.5; 意群情感值 = W * 程度词权重 * 情感词权重 ; end
如果句子里出现多个否定词,则处理办法为: For n in 所有否定词: W = -1 * W
3、情感聚合
情感值 = 否定词(-1) * 程度词权重 * 情感词 权重
? 篇章级情感倾向通过聚合篇章中所有的句子的情感倾 向来计算得出。 ? 句子级由句子中所含情感词来计算。
否定词和程度词位置关系
“我很不高兴”——分词之后: 我 很 不 高兴 “我不很高兴”——分词之后: 我 不 很 高兴
3、情感聚合
基于词典的中文情感倾向文本分析工具
情感倾向
情感倾向可认为是主体对某一客体主 观存在的内心喜恶,内在评价的一种倾 向。 ?情感倾向方向 ?情感倾向度
分析方法
目前,情感倾向分析的方法主要分为两类: ?基于情感词典的方法; ?是基于机器学习的方法。
分析粒度
文本情感分析的分析粒度: ? 词语; ? 句子; ? 段落; ? 篇章。
否定词和程度副词的优化
当程度副词修饰情感词,该情感 词的情感倾向程度发生了变化。
“今天坐了12个小时的车,身体极度疲惫。”
程度副词示例
type |
权值
超|over
1.5
很|very
1.25
极其|extreme / 最|most
2
较|more
1.2
欠|insufficiently
0.5
稍| slightly
3、情感聚合
句子情感值 = sum(意群情感值1,意群情感值2……) 段落情感值 = average(句子1情感值,句子2情感 值……) 文档情感值 = average(段落1情感值,段落2情感 值……)
小结
最后可以通过整个文章的情感值的 正负号以及权值大小来判断情感倾向是 积极的还是消极的。
Thank you
分句意的符号,切割成不同的句子 [“。”;,””?,””!,””;]
?使用 FudanNLP 中的分词函数,对短句进行分词。
1、文本切割转换
文本切割的目的是将文本变成我们后续分析需要的格式: “我今天很不高兴。”
[(1,“我”,“代词”),(2,“今天””时态词”),(3,“很”,”
副词”),(4,“不”,”否定词”),(5,“高兴”,“形容词”)]
“我今天很不高兴。”
①经过文本切割转换
[(1,“我” , “代词”),
(2,“今天”,“时态词”), (3,“很”, “副词”), (4,“不”, “否定词”), (5,“高兴”,“形容词”)] ②情感定位
[(5,“积极词”,4),
(4, “否定词” ,-1)], (3, “程度词”,1.25)]