当前位置:文档之家› 基于情感字典与机器学习相结合的文本情感分类

基于情感字典与机器学习相结合的文本情感分类


Dissertation for the Master Degree of Engineering
Sentiment Classification by Combining Lexicon-based and Machine Learning Methods
Candidate: Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Defence: Degree-Conferring-Institution:
工学硕士学位论文
基于情感字典与机器学习相结合的 文本情感分类
硕 士 研 究 生 : 王振浩 导 师: 丁宇新副教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 深圳研究生院 答 辩 日 期: 2010 年 12 月 授予学位单位: 哈尔滨工业大学
Classified Index: TP391.3 U.D.C: 621.3
- II -
哈尔滨工业大学工学硕士学位论文


摘 要 ......................................................................................................... I Abstract ..........................................................................................................II 目 录 ...................................................................................................... III 第 1 章 绪论 .................................................................................................. 1 1.1 课题背景 .............................................................................................. 1 1.2 课题研究的目的及意义 ........................................................................ 1 1.3 国内外相关技术发展现状 .................................................................... 2 1.3.1 文本情感分类的主要研究内容 ..................................................... 2 1.3.2 文本情感分类的应用现状 ............................................................. 4 1.3.3 本文研究重点以及需要解决的问题 .............................................. 5 1.4 本文主要研究内容与组织 .................................................................... 6 第 2 章 文本情感分类基础知识 .................................................................... 7 2.1 引言 ...................................................................................................... 7 2.2 相关研究工作 ....................................................................................... 7 2.2.1 传统文本分类的研究概览 ............................................................. 7 2.2.2 基于情感字典的文本情感分类的相关研究 ................................... 9 2.2.3 基于机器学习的文本情感分类的相关研究 ................................... 9 2.3 语言特征抽取 ..................................................................................... 11 2.3.1 基于 N-Gram 模板的文本特征表示 ............................................. 11 2.3.2 语言特征加权和选择 .................................................................. 12 2.4 情感分类模型 ..................................................................................... 13 2.4.1 朴素贝叶斯模型 .......................................................................... 13 2.4.2 支持向量机模型 .......................................................................... 13 2.5 本章小结 ............................................................................................ 14 第 3 章 文本情感分类的自监督分类模型 ................................................... 15 3.1 引言 .................................................................................................... 15 3.2 情感分类方法改进简介 ...................................................................... 15 3.2.1 基于字典与基于机器学习方法比较 ............................................ 15 3.2.2 情感字典与机器学习相结合 ....................................................... 17


近年来,随着电子商务,个人博客,社交网站和微博的蓬勃发展,互联 网进入了一个崭新的时代,用户生成文本( user generated content )的产生, 标志着人们已经不再是单纯的受众,而是成为了互联网的一部分。广大用户 有了发表自己意见的空间,带有主观色彩的言论或评价随之铺天盖地而来。 这些海量的非结构化的信息显然包含了大量的信息。 企业需要获得用户对产 品的意见,政府需要知道群众对某项政策的反映。而用户在消费前想获得更 多的建议。如何处理这些信息从而获得我们想要的知识,是当前学者们关注 的焦点。情感分类是随之而兴起的一个研究领域,它从文本的情感表达入手 对文本进行分类,将其分过正面( positive )和负面( negative ) 。这样我们 可以清楚的知道,文本信息所表达的态度是赞成还是反对,这种产品值得推 荐还是一文不值。 在这样一个背景下,本文对文本情感分类问题进行了下述研究工作: 首先,本文针对情感分类的特点提出了一种自监督的分类模型,将情感 分类中常用的基于字典方法与基于机器学习方法相结合, 克服了基于字典方 法的完备性问题和基于机器学习需要庞大人工标注训练集的问题; 其次本文 尝试将信息检索中常用的 TFIDF模型引入到情感分类中,对其进行调整以适 应情感分类问题。最后,本文通过搭建分类模型工程,在情感分类常用数据 集上实验证明, 本文提出的分类模型可以在不需要庞大人工标注的训练集的 情况下获得较高的分类精确率。TFIDF的改进加权模型比布尔加权模型提供 了更多的信息,因而也取得了比布尔加权模型更优的分类结果。 关键词:情感分类;观点挖掘;文本分类;支持向量机; TFIDF
-I-
哈尔滨工业大学工学硕士学位论文
Abstract
In recent years, with the development of e-commerce, SNS and micro-blog, the internet entered a new era. With the production of the user generated content, which marks that, the people is no longer simply an audience, but has become part of the internet. For what, they have the space to express their views. There are so many views now. These vast amounts of unstructured information is clearly contains a great deal of information. Companies need to obtain the views of users of the products. The government needs to know the people reflect on a policy. How to deal with the information to gain the knowledge what we want is the current focus of attention of scholars. Opinion mining and sentiment classification is a new area focus on deal with this problem. It separates the views to two parts, which are positive and negative, according to the emotion of the writer. With the help, we will know that the emotion of the audience expressed by the text for or against. And a product is recommended or worthless. In this dissertation , the problems of text sentiment classification on document level are investigated . The main contributions of this dissertation are summarized as follows: Firstly, we propose a new self-supervised model for sentiment classification. In this model, we combined lexicon-based method with corpus-based method to address the major drawbacks of only using one of these two methods. The former does not adept well to different domains, while the latter one requires much effort of human annotation of documents. Our self-supervised model can overcome these drawbacks. Secondly, we improve the TFIDF model and used it into the SVM classifier. The result proved that this method is move efficient. Keywords Sentiment classification, Opinion mining, Text classification, SVM, Delta TFIDF
相关主题