随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。
非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。
如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。
尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。
这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。
基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。
因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。
情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。
文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。
其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。
因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。
研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。
文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。
情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。
情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。
情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。
情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。
目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。
本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。
1 基于统计机器学习法随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。
多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。
机器学习的本质是基于数据的学习(Learning from Data)。
利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。
2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。
该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。
他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。
[7]。
Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文档,并采用Support Vector Machine进行分类,来区分带有正面和负面评论的文档。
Feizhongchao[3]等利用句子短语模式对文本的情感倾向进行分类,主要通过构造文本中的每个句子短语模式计算情感倾向得分。
Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio’s算法对情感分类[8]。
Cui等利用PA(Passive Aggressive)、LM(Language Modeling)和Winnow分类器,并比较了她们的性能[9]。
在英文评论领域,研究者已经初步取得一些成果,而针对中文网络用户评论的研究仍还处于起步阶段。
随着中国电子商务在世界领域内的崛起,亟需对于中文评论中有用信息的自动提取技术。
对于利用机器学习的方法进行中文的情感分析,由于机器学习方法的通用性,面向英文的很多方法都可以借鉴。
近几年国内研究人员在此方面也取得一些成果,唐慧丰等人[10]还特别针对各种情感分类技术包括面向中文文本的方法进行了总结和比较。
2005年,叶强[4,5]等人从文本中抽取主观性的信息,并赋予相应的权值,根据权重构造倾向分类器。
蔡健平等人[6]提出的基于机器学习的词语和句子极性分析,该方法通过构建极性词典来分析领域极性词,同时采用基于词的方法和Bayes方法对网上手机评论文章包含的主观意见进行褒贬挖掘,取得了一定的成果。
李艺红,蒋秀凤在文献[12]中采用SentWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序。
实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子。
白鸽,左万利等在文献[13]中针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题。
实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好。
句子级别和评论级别的准确率分别达到88.26%和91.79%。
随着研究进展的深入,逐渐出现一些研究者结合不同分类方法进行情感计算。
郭明等在针对新闻报道情感分析中将机器学习中的经典分类方法与规则方法相结合,通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合进行实验以分析新闻语音文本的情感倾向,并判断其强弱[14]。
并且,近年来有关自然语言处理、人工智能、信息检索、数据挖掘以及Web应用等领域的多个国际顶级会议(AAAI、ACL、SIGIR等)都收录了文本情感倾向分析的相关论文。
机器学习的方法虽然在目前来讲分类的准确程度比较高,但是它针对每一种产品使用前,训练样本集的建立都需要采用人工方法对大量的评论文章逐一阅读甄别,并进行手工标志,这与利用自动情感分类降低人的阅读负担这一初衷还有着一定的差距。
因此,近来许多研究者将情感分析研究的重点集中在对训练样本的需求量较低的语义方法上。
2、基于语义的方法最初学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词[10-12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13-16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语情感倾向。
2002年,Turney在其论文[15]中介绍了基于语义倾向的非监督文本分类方法。
根据褒贬含义的倾向信息对评论性文章进行分类,其分类结果更符合人们对评论性文章分类的实际需求。
Pang提出了对语义倾向分类结果进行后续处理,进一步将分类结果按照语义倾向强度进行细分的方法,并通过一系列的实验证明了其方法的可行性[16]。
2004 年,Hu [17]等人首先提出应用关联规则分类方法提取英文评论中的产品特征,利用该非监督型方法对于包括手机、数码相机等产品评论进行挖掘,平均查全率达到80%,平均查准率达到72%,并在此基础上进行了后续的研究[18],判断了用户对这些特征的情感导向。
Popescu 等人[19]利用研发的KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提高Hu 的准确率,但是查准率却有所下降。
刘健等人[21]提出与产品特征挖掘并考虑产品特征的情感倾向这两个功能类似的意见实例抽取(opinion instance extraction) 需要建立相关的领域知识;Kobayashi 等人[20]采用了一个半自动化的循环方法提取产品特征和用户观点,但是需要大量的人工参与。
以上研究都是针对于词语的情感分类,利用已有的电子词典或词语知识库扩展生成情感倾向。
英文词语情感倾向信息的获取主要是在General Inquirer和WordNet的基础上进行的研究;Peter[23]最早提出将点互信息( pointwise mutual information) 与信息检索方法( information retrieval) 相结合,借助搜索引擎的后台数据库获得语义倾向信息,得到汽车评论的准确率是84%,电影评论的准确率是66% 。
其可靠性已经在英文客户情感分类的研究中得到了初步的验证。
而中文词语情感倾向信息的获取依据主要有HowNet,但是还是处于研究阶段。
2006年,复旦大学朱嫣岚等基于HowNet[24],提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。
实验表明,这两种方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。
党蕾,张蕾在文献[25]中提出采用否定模式匹配与依存句法分析相结合的方法。
研究分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算情感倾向,并且在否定模式匹配后改进句子极性算法。
实验结果表明该方法取得了良好的效果。
因此,对于文档的情感倾向分析研究逐渐成为研究者新的起点。
Ye 等人[29]探索了中文环境下对于文档的情感分析理论与方法,在PMI-IR 方法的基础上,初步建立了中文语义倾向情感分析方法,获得了接近英文同类研究的分析结果,显示出该方法在中文情感分析上的应用前景。
熊徳兰等人[28]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法,利用夹角余弦法对语义倾向进行了改进。
何婷婷等[30]基于HowNet的语义相似度计算的基础上,提出了一种改进的基于语义理解的文本情感分类方法来判定文本的情感倾向性。