当前位置:文档之家› 基于词典的中文情感倾向文本分析工具

基于词典的中文情感倾向文本分析工具


分析粒度
句子级析, •篇章级文本情感分析的基础。
语言和工具:
使用工具: 语言:java 中文分词系统: FudanNLP-1.5 情感词典:知网情感词典
算法分析
1、文本切割转换 2、情感定位 3、情感聚合
1、文本切割转换
•将文档D以换行符”/n”分割成段落P;
W = 1; If 位置(否定词)> 位置(程度词):W = -1; 意群情感值 = W * 程度词权重 * 情感词权重; end If 位置(否定词)< 位置(程度词):W = 0.5; 意群情感值 = W * 程度词权重 * 情感词权重; end
如果句子里出现多个否定词,则处理办法为: For n in 所有否定词: W = -1 * W
3、情感聚合
情感值 = 否定词(-1) * 程度词权重 * 情感词 权重
篇章级情感倾向通过聚合篇章中所有的句子的情感倾 向来计算得出。 句子级由句子中所含情感词来计算。
否定词和程度词位置关系
“我很不高兴”——分词之后: 我 很 不 高兴
“我不很高兴”——分词之后: 我 不 很 高兴
3、情感聚合
2
“我今天很不高兴。”
①经过文本切割转换 [(1,“我” , “代词”), (2,“今天”,“时态词”), (3,“很”, “副词”), (4,“不”, “否定词”), (5,“高兴”,“形容词”)] ②情感定位 [(5,“积极词”,4), (4, “否定词” ,-1)], (3, “程度词”,1.25)]
基于词典的中文情感倾向文本分析工具
情感倾向
情感倾向可认为是主体对某一客体主 观存在的内心喜恶,内在评价的一种倾 向。 •情感倾向方向 •情感倾向度
分析方法
目前,情感倾向分析的方法主要分为两类:
•基于情感词典的方法; •是基于机器学习的方法。
分析粒度
文本情感分析的分析粒度: • 词语; • 句子; • 段落; • 篇章。
3、情感聚合
句子情感值 = sum(意群情感值1,意群情感值2……) 段落情感值 = average(句子1情感值,句子2情感 值……)
文档情感值 = average(段落1情感值,段落2情感 值……)


最后可以通过整个文章的情感值的 正负号以及权值大小来判断情感倾向是 积极的还是消极的。
Thank you
常见的否定词如: 不、没、无、非、莫、弗、毋、勿、未、否、别、無、 休……
否定词和程度副词的优化
当程度副词修饰情感词,该情感 词的情感倾向程度发生了变化。
“今天坐了12个小时的车,身体极度疲惫。”
程度副词示例
type | 权值 超|over 1.5 很|very 1.25 极其|extreme / 最|most 较|more 1.2 欠|insufficiently 0.5 稍| slightly
•将段落P用中文里常用的句号、分号、问号、感叹号划 分句意的符号,切割成不同的句子[“。”,”;”,”?”,”!”] ; • 使用FudanNLP中的分词函数,对短句进行分词。
1、文本切割转换
文本切割的目的是将文本变成我们后续分析需要的格式:
“我今天很不高兴。”
[(1,“我” ,“代词”),(2,“今天”,”时态词”),(3,“很”,” 副词”),(4,“不”,”否定词”),(5,“高兴”,“形容词”)]
2、情感定位
next 单词列表

是否为情 感词 是
标记并存入情感词列 表
next
否定词和程度副词的优化
“我今天很不高兴”
否定词的修饰会使情感词语的情感极性发生改变。
多重否定:当否定词出现奇数次时,表示否定意思; 当否定词出现偶数次时,表示肯定意思。
否定词典NotDict,并设置其权值为W=-1。
相关主题