开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告论文题目在线评论分析系统的情感分析开题报告内容:一、选题的背景及意义近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。
它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。
因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。
分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。
然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行收集、处理和分析。
因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。
文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。
它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。
进入21世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。
目前针对中文的情感分析仍处于起步阶段,各项技术尚未成熟,因此,中文文本的情感分析系统的研究与实现有着广泛的研究价值和应用价值。
二、工作任务分析a) 学习情感分析技术,研究文本情感分析的相关理论、算法和应用。
了解情感分析技术的发展现状和发展方向,并能理解其理论基础;研究基于情感词典和基于机器学习等情感分析算法;研究目前情感分析技术在商业领域的应用,特别是在用户评论分析与决策上的成果。
b) 针对评论文本的特点,研究和设计面向评论文本的情感分析算法。
针对评论文本短小简洁、网络术语等特点,研究和设计有效的中文情感分析算法,判断出评论文本中的情感倾向性c) 基于上述研究,构建评论文本的情感分析模块。
设计并构建评论文本的情感分析模块,结合小组其他同学的网页内容提取模块和网络存储模块等,构建一个在线评论分析系统,且整个系统能够正常运作。
d) 测试与优化。
不断对情感分析模块进行测试与完善,尽可能提高情感倾向分析的准确率。
三、调研报告1、情感分析的发展现状文本情感分析是一个多学科交叉的研究领域,属于计算机语言学的范畴。
它在计算机科学以及管理学、政治学、经济学、社会学方向都有广泛的应用,而商业的蓬勃发展也进一步拓展了它的应用范围。
在20 世纪 90 年代,就已经有学者开始了情感分析方面的研究,进入 21 世纪以后,作为一个新的研究方向,这个领域逐渐变得活跃,吸引了越来越多的国内外学者投入其中。
在情感分析的应用中,“用户评论分析与决策”,是目前情感分析技术使用最频繁的一个应用点[1]。
国内外有很多研究机构根据现实生活中的具体需求研发出各个领域的情感分析系统,帮助用户对海量信息进行分析和决策。
例如,Dave等人研究并开发的Review Seer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。
Liu等人研发的Opinion Observer系统町以处理网上在线顾客产品评价。
采用可视化方式对若干种产品评价对象的综合质量进行比较;Wilson等人研发的Opinion Finder系统可以自动识别主观性句子以及抽取句子中情感信息;上海交通大学则开发了一个用于汉语汽车论坛的情感分析系统,挖掘并概括人们对各种汽车品牌的评论和意见。
但由于中文和英文的差异性,许多国外的研究技术和情感资源无法直接用于中文语言的处理,基于中文领域的情感分析处于起步阶段。
情感分析技术的快速发展在很大程度上源于人们改进人机交互现状的愿望,而随着中国电子商务的迅猛发展,未来情感分析依然是数据挖掘和中文信息处理领域的热点研究领域。
[2]2、情感分析的相关理论和技术文本情感倾向分析的主要任务[3]是判断主观性文本所表达观点的褒贬性,根据其研究的粒度可分为词语、句子和篇章三个级别。
其中,本课题主要针对的在线评论信息属于句子级中文短文本。
句子级情感分析研究方法[4]总体可分为情感词典、机器学习和语义分析三种方式。
a) 基于情感词典的方法。
以现有的情感词典为基础,结合句法分析、词语相似度分析等手段,采用计算情感权值的方式,对文本的情感倾向进行判定。
该方法简单易行,但是2由于受到否定词和转折词等因素的影响,其判断准确率不够理想。
王素格等人首先通过构建情感词典,在此基础上使用情感词对观点句进行表示,然后利用线性加权组合方法构造分类函数,从而实现对句子情感的褒贬分类。
b) 基于机器学习的方法。
一般采用有监督的或者半监督机器学习的方式。
将情感分析看做一个文本分类问题,使用分类器将文本分为正、负两类或者正、负、中性三类。
首先进行文本预处理,提取文本中的否定词、一元词语特征(unigram)、二元词语特征(bigram)、位置信息等属性,然后利用这些属性作为文本分类中的特征,使用了 NB、ME 和 SVM 三种分类方法来进行情感分类。
Pang的分类结果表明,选用unigram特征,使用 SVM 分类器能取得最佳的效果,面向电影评论文本的准确率达 83%。
c) 基于语义和语法的方法。
蔡健平等[14]人以知网[15]根据文本的语义特征计算方法为基础,提出了基于语义距离和语法距离的句子褒贬倾向性分析方法,该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。
克蕾等通过对句子进行依存语法分析,提出了根据语法距离来计算情感修饰词对句子极性的影响,并取得了不错的结果。
四、方案拟定与分析初步的方案有以下几个要点:1、研究文本情感分析的相关算法。
比较各种情感分析方法的特点,并根据中文评论文本的特性及在线评论分析系统的需求,选择其最优算法进行学习和研究;2、分别设计基于词典和基于分类的情感分析算法采用基于情感词典的方法a)抽取情感短语;b)用PMI公式计算词语的情感倾向;c)根据计算提取出的所有的短语情感倾向值,分析文本的情感倾向。
采用基于机器学习的方法a)进行文本预处理,提取文本中的否定词、一元词语特征、二元词语特征、位置信息等属性;b)利用这些属性作为文本分类中的特征,使用了 NB、ME 和 SVM 三种分类方法来进行情感分类。
3、设计面向评论文本的情感分析模块a)特征提取与权重计算子模块本子模块在提取出文本的特征并计算其特征权重后,将文本保存成向量空间模型。
b)分类子模块考虑使用台湾大学的 libsvm模块进行分类。
主要提供两个功能,即模型的训练和对新文本进行分类。
算法测试时,首先运行训练过程来训练分类器,然后通过测试过程来测试情感分类的准确度4、模块接口的开发设计情感分析模块与其他小组成员设计的模块能够成完整的系统,预留开发接口,使能够对情感分析算法进行替换、维护,以便后续对算法进行改进。
35、系统测试对情感分析模块进行实验和测试,并对其准确率、召回率等评价指标进行分析和系统的完善优化。
五、毕业论文撰写提纲摘要第一章绪论1.1研究背景1.2国内外发展现状1.3研究内容及挑战1.4本论文的结构安排第二章关于情感分析的相关理论和技术基础2.1情感分析问题的描述2.2情感分析的任务2.3情感倾向析的方法2.4本章小结第三章在线评论分析系统中情感分析模块的关键算法研究3.1情感词典构建算法3.2面向在线评论文本的情感分析算法3.2.1在线评论文本的特点3.2.2面向在线评论文本的情感分析算法研究3.3本章小结第四章在线评论分析系统的总体设计4.1系统需求分析4.2系统总体结构4.3本章小结第五章情感分析模块详细设计与实现5.1模块工作流程5.2模块设计5.3本章小结第六章情感分析模块展示与测试6.1模块展示6.2测试结果与分析6.3本章小结4第七章在线评论分析系统展示与测试7.1系统展示7.2测试结果与分析7.3本章小结第八章结束语8.1总结8.2今后的研发展望致谢参考文献六、实施计划设计总共用时3个半月左右。
具体安排如下:2014.12.15——2015.03.20 论文选题,收集资料,并完成开题报告。
2015.03.21——2015.03.31 学习与整理情感分析模块的相关资料。
2015.04.01——2015.04.30 完成情感分析模块的实现和测试工作。
2015.05.01——2015.05.25 完成毕业论文。
2015.05.26——2015.06.12 完成答辩。
指导教师意见:指导教师签名:年月日文献综述内容(与论文主题相关的国内外研究理论、研究方法、进展情况、存在问题、参考依据等):随着Internet的飞速发展,庞大的Web资源日益演变为人们获得知识与信息的重要来5源。
与此同时,由于Web资源的迅速膨胀以及Web信息的分散性与随意性,用户很难通过便捷的方式快速准确地从Web上获取所需的信,每天必须花上大量的时间与精力到各个网站上去浏览并挑出有效的信息。
因此,如何快速有效地对Web信息进行分类和索引以提供面向用户的快速检索访问成为一项重要的研究课题。
薛为民[5]和易高翔[6]等提出文本情感分析对大量的非结构化文本(如文档、电子表格、客户电子邮件、问题查询、网页等)进行分析,抽取文本特征,将文本数据转化为能描述文本内容的结构化或半结构化数据。
然后利用聚类、分类技术和关联分析等数据挖掘技术,形成具有一定结构文本,并根据该结构发现新的概念和相应的关系,获取有用的知识和信息。
然而刘红玉在文献[4]中提出了如下观点,认为目前,国内面向网络舆情分析研究主要存在以下几个方面的挑战: (1)中文情感词典的构造难度大; (2)中文语料难以获取 ;(3)网络载体多样化,文本类型不一 ;(4)准确度与中文分词、命名实体识别、句法分析等工具的准确度正相关不同于英文。
综合目前的国内外研究现状,情感倾向分析有三个基本思路,即基于词典的方法、基于语义的方法和基于分类的方法。
(1)基于词典的方法Turney等[7]选择了一些经常用来表达情感的语法模式,通过这些模式计算词语之间的PMI(Pointwise mutual information)和句子的 SO(semantic orientation)值来判断情感倾向。