当前位置:文档之家› 中文微博情感评测报告.ppt

中文微博情感评测报告.ppt


任务处理流程
人工标注 训练语料
构建特征集
训练集及训 练模型生成
预测集生 成及预测
人工标注
利用本团队自主开发的标注工具标注 严格按照主办方提供的标注规则,从样列
文件中选取1219条具有代表性的微博进行 标注 标注内容包括:是否为观点句、情感倾向 性、情感要素
训练语料
▪ 任务一:人工标注的1219条微博 ▪ 任务二:任务一训练语料中451条为观
中文微博情感评测报告
报告人:陈威
提纲
▪ 研究背景及意义 ▪ 任务预备 ▪ 任务分析与实施 ▪ 总结
背景
在2.0大背景下,微博作为用户发言、 相互交流的重要途径,具有数量大、更新 快的特点,是从中发掘用户观点以及情感 倾向的可靠来源。针对微博的自然语言处 理研究已成为当前一个新的研究热点和前 沿课题,而情感分析就是其中一个热点话 题。
感要素
总结
本团队在本次比赛中,运用自然语言处 理与机器学习的相关知识,结合自身的思 路与创新,对任务一(观点句识别)和任 务二(情感倾向分析)的评测取得了较为 理想的结果,而在任务三的实施方面由于 时间和精力方面的原因,尚存一定偏差。 在以后的时间里,我们一定会继续深入研 究和努力,进一步改进预测方式,扩充情
感谢各位专家、学者聆听 本次报告!
点句的微博
任务一特征集
任务二特征集
训练模型生成
人工标注语料
网络用语、表情特征提取 格式转换
海量分词格式
分 词
提取特征
预测集生成
待预测微博
网络用语、表情特征提取 格式转换 预处理
提取特细节
▪ 任务一分词前预处理 : 过滤类似 “我感 到很高兴”这样的主观抒发情感句,并 定为非观点句。
任务三流程
分词
特征提取
训练及预测
情感要素提取
结构化标注
任务三特征集
训练集生成
▪ 使用与任务二相同的人工标注集作为训练 语料
▪ 结构化标注: 表示情感要素开始词, 表示 情感要素结束词
▪ 为情感词,为背景
情感要素确定
标注为,即情感词,作为微博情感倾向 标注为或,则可能是情感要素 没有标注的角色,那么就认为该句没有情
▪ 任务二预测集生成:根据任务一的预测 结果,从中提取预测为观点句的微博
▪ 使用对预测集进行预测
评测结果
任务
微平均 正确率 召回率
宏平均 F值 正确率 召回率 F值

0.645 0.959 0.772 0.649 0.960 0.770

0.804 0.771 0.787 0.809 0.778 0.793
微博情感分析
情感分析,包括观点挖掘、观点分析、主 客观分析等。情感分析的目的是从文本中 挖掘用户表达的观点以及情感倾向。
主要技术:(1)情感词典与规则相结合的 方法(2)机器学习
意义
过滤不合法网络舆论信息,营造良好的网络环境 监督舆论的走势,辅助社会管理 实现商品个性化推荐 对社会计算的研究有重要的意义
提纲
▪ 研究背景及意义 ▪ 任务预备 ▪ 任务分析与实施 ▪ 总结
任务清单
任务一:观点句判定 任务二:分析情感倾向 任务三:提取情感要素
技术准备
分类器: 、 情感词典扩充:加入网络用语和表情符号 中文分词技术:海量云分词
提纲
▪ 研究背景及意义 ▪ 任务预备 ▪ 任务分析与实施 ▪ 总结
相关主题