相关电子技术论文

相关标签

基于lda的文本情感分析

发布时间:2019-12-03 13:09

  摘 要

  互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。

  情感分析,也称意见抽取、意见挖掘和倾向性分析[8]。主要是通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理的过程[1]。本文对酒店评论数据集进行了如下的工作:

  首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档-主题分布作为特征向量,来对文本进行分类。

  这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。

  关键词: 情感分析 文本分类 支持向量机 数据挖掘 主题模型 LDA 朴素贝叶斯

  前 言

  互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。

  文本情感分析指的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程[1]。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。

  文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类[9],甚至四类[10]。

  网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数据集进行情感分析。

  本文的主要内容有:

  (1) 文本预处理

  (2) 构建情感词典并抽取情感词

  (3) LDA建模

  (4) 使用SVM进行情感分类

  (5) 使用贝叶斯分类器分类

  第一章 概述

  本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。

  1.1 情感分析概述

  文本情感分析,又称意见挖掘(Opinion Mining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[1];情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识[8]。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过Twitter分析网民在2008~2009年金融危机的心情,如下图:

  1.1.1 主要研究内容

  情感分析一般包括几个步骤,即情感信息的抽取、情感信息分类以及情感信息的检索与归纳[1]。

  情感信息抽取即抽取文本中能表达情感的信息,带有情感倾向的词语称情感词,比如:喜欢、讨厌、恶心等表达用户情感的词语。目前对情感词的抽取主要有两种方法,一种基于语料库,另一种基于词典。前者挖掘语料库中的评价词语判断其极性,但往往只适用于形容词而且过于依赖用来迭代的“种子”词集,同时评价词语在语料库中的分布也很难获取。而后者使用词典中词语之间的词义联系来挖掘评价词语。由于词语的多义性,用种子词集扩展评价词语的方法容易引入噪音。对于词典稀少的非英语语言,有学者通过将英语极性词典翻译成该语言的方法来构建极性词典,以供情感分析使用,但由于翻译中存在一词多义性,翻译过后的词的极性也许会改变,所以可能会存在较大的误差,在这种极性词典的构造中可以通过误差的消除来增加精确度。德黑兰大学的Mohammadreza Shams等人通过将英语词典翻译成波斯语,并且通过迭代方法纠正翻译中的错误,构建极性词典,最后使用一种基于LDA的无监督情感分析方法来进行分类,得到了不错的分类结果[7]。

  情感信息的分类包括两种,主客观信息分类和主观信息分类。主客观信息分类即将文本分为主观信息和客观信心两类,其依据是文本中是否包含情感信息。主观信息分类即对情感的分类,通过各类分类器将情感文本分类为褒贬,或者其他更多的类别。

  情感信息的检索与归纳,即检索时,不仅检索包含用户主题的文档,也检索包含情感信息的文档。在搜索过程中,搜索所得到的结果不仅依据传统的信息检索模型,并且对文档中进行主客观识别,对文档表达的情感打分,再结合文档相关性来对检索结果排序。

  1.1.2 文本情感分析的分类

  按照应用领域的不同,可以将文本情感分析技术分为基于产品评论的文本情感分析基于新闻评论的文本情感分析[1]。

  根据文本的不同粒度,文本情感分析可以被划分为词语级、句子级、篇章级和海量数据级:

  (1)词语级:指对文本中的情感词进行抽取,根据其情感倾向进行分类。

  (2)句子级:(a)根据句子中的情感信息,将句子划分为主观句和客观句;(b)如果是主观句,则抽取其中的极性词,根据极性词来判断句子整体的极性,从而进行情感分类。

  (3)篇章级;可以把篇章级的文本情感分析看成多个句子级的文本情感分析任务的综合,由于一篇文章中不同句子极性可能相反,既含褒义句也含贬义句,所以篇章级别的情感倾向比较难处理。

  (4)海量数据级从互联网上抓取大量关于某个产品、新闻等的主观文本,对它们进行情感分析,挖掘人们对这些产品或新闻的态度。

  1.1.3 主题模型在情感分析中的应用

  用户在查看某一产品的评价时,往往更加关注的是该产品在某些特征。例如用户查看iPhone的评论数据时,关注的特征是性能、屏幕、续航、电池等。用户的评论通常围绕着这些评论进行。如“屏幕很大,但是续航不太行”。

  主题模型在评论文本中抽取隐含的主题信息,分析用户对主题的偏好,在文本情感分析领域常常会取得意想不到的效果。

  1.2 国内外研究现状

  情感分析领域比较系统的研究工作开始于Pang等人对电影评论集进行情感倾向分类的研究[6]。

  在此之后陆续越来越多的学者开始在情感分析领域进行研究,但目前的研究大多数依旧是使用文本分类中的机器学习算法。当然,文本情感分析也可以被看成一种特殊的文本分类,即以情感极性为类别,将文本分类到各个极性类别中。但事实上,情感分析和文本分类最大的不同是文本的情感信息和语义相关。目前为止,基于监督学习的机器学习方法在情感分析领域较为成熟。

  近年来,文本挖掘领域的热点逐渐转移到了主题模型(Topic Model)。主题模型主要包括两类:PLSA(Probabilistic latent semantic analysis)和LDA(latent Dirichlet allocation)。PLSA起源于Deerwester等人于1990年提出的潜在语义分析(Latent SemanticAnalysis)模型。该模型用SVD来对词-文档矩阵进行降维,然后抽取文档与词语之间的潜在语义关联。当文本数据非常大时,SVD的迭代计算特性会让计算非常困难。LSA存在一系列缺点,为了解决这些问题,Hofmann等人于1999年提出PLSA模型。该模型将“潜在语义关联”明确提出,并称之为“主题”,又使用概率统计的思想,从而避免了SVD的复杂计算。2003年,Blei等人提出了LDA模型,事实上,该模型是PLSA模型的“贝叶斯”版本。在PLSA模型中,参数是固定的未知常数,虽然未知,但是我们知道它是一个确定的值,但在LDA模型中,参数是随机变量,是无法确定的,它服从一定的分布,在LDA中,我们主要关注这样的变量的分布。

  1.3 本文内容安排

  论文全文分为六章:

  第一章主要介绍情感分析的概念、国内外的一些研究现状以及进展、各种方法的不足和优点。

  第二章将会对酒店评论数据集进行数据预处理,具体包括分词、去除停用词、抽取情感词等。

  第三章论述LDA的具体概念以及如何使用LDA进行建模

  第四章将会使用SVM分类器进行情感分类

  第五章将会使用贝叶斯分类器对文本进行情感分类

  第六章总结本论文研究内容,并对可能的研究方向进行展望。

  第二章 数据预处理

  2.1 概述

  评论数据集中的数据无法直接用于LDA的建模以及分类器的分类,在进行实验之前必须进行预处理操作,将数据转换为可操作的格式。除此之外,对数据中的无关数据以及噪音的清理会显著地提高建模效率以及分类效果。对数据进行预处理是所有文本分析任务必须经历的一步。

  2.2 分词以及简繁体转换

  与英语文本不同,中文中每个单词之间并没有空格隔开,因此在进行中文自然语言处理时,通常需要先进行分词操作。分词即把一个汉字序列变成一个个单独的有意义的词汇的过程。目前常用的分词工具有:

  (1) 哈工大分词器LTP

  (2) 清华大学THULAC

  (3) Hanlp分词

  (4) 结巴分词工具

  本文选取结巴作为分词工具。

  在使用结巴分词前先使用snownlp对文本进行简繁体的转换。

  2.3 去除停用词

  停用词通常被认为是对信息检索、文本分类等操作没用的词,如英语中的“the”、“that”,中文中的“的”,“了”,“在”,以及一些符号和数字等。它们在文档中出现的频率极高却没有什么实际意义,忽略掉这些词能够提升检索的效率。

  本文所用停用词集来自于哈工大停用词词库和百度停用词表,去重后整理而成。

  在对文本进行分词后,对每篇文档,都与停用词集进行差操作从而得到去除停用词的数据集。

  2.4抽取情感信息

  2.4.1 情感词典的构建

  情感词即表达情感倾向的词语。

  情感词典即由表达情感信息的词构成的词的集合。目前情感词典多为英语,但也有不少学者构建了中文词典。

  由于单一的中文情感词典容易造成词汇遗漏,本文选取了目前表现较好的三种情感词典:

  (1) HowNet极性词典。

  (2) 台湾大学NTUSD-简体中文情感极性词典。

  (3) 清华大学的中文褒贬义词典。

  抽取这三种词典中中的所有词,并进行去重,得到一个整合的大词典。

  2.4.2 抽取情感信息

  即从数据集中过滤掉客观信息,抽取主观情感信息。

  情感信息的抽取一般分为基于词典和基于语料库两种方案,本文采用基于词典的方法抽取情感词。

  其主要操作步骤为:

  (1) 遍历数据集,对于每篇文档分词后构成的词向量Wi ,将它与情感词典D进行匹配。

  (2) 若匹配成功,则抽取匹配到的单词,作为这篇文档的新的词向量。

  (3) 若匹配失败,则该文档的词向量不变。

  2.4.3 数据

  原始数据服务态度极其差,前台接待好象没有受过培训,连基本的礼貌都不懂,竟然同时接待几个客人;

  大堂副理更差,跟客人辩解个没完,要总经理的电话投诉竟然都不敢给。要是没有作什么亏心事情,跟本不用这么怕。

  分词后服务 态度 极其 差 , 前台 接待 好象 没有 受过 培训 , 连 基本 的 礼貌 都 不懂 , 竟然 同时 接待 几个 客人 ; 大堂 副理 更 差 , 跟 客人 辩解 个 没完 , 要 总经理 的 电话 投诉 竟然 都 不敢 给 。 要是 没有 作 什么 亏心事 情 , 跟本 不用 这么 怕 。

  去除停用词服务 态度 极其 差 前台 接待 好象 没有 受过 培训 基本 礼貌 不懂 竟然 接待 几个 客人 大堂 副理 更 差 客人 辩解 没完 要 总经理 电话 投诉 竟然 不敢 没有 作 亏心事 情 跟本 不用 怕

  抽取情感词极其 差 没有 礼貌 不懂 竟然 更 差 辩解 没完 投诉 竟然 不敢 没有 亏心事 跟本 不用 怕

  表2.1 数据示例

  可以看到在经过数据处理后,数据的形式不仅更加容易处理,而且其情感信息更加突出,极性更加明显。

  2.5 本章小结

  数据预处理是各类文本分类、回归任务的第一步,数据预处理的有效形直接影响后续操作的准确度。本章通过简单地分词、去除停用词等操作获取可用于LDA建模的数据集合,然后整合目前效果比较好和全面的三个情感词典构建本次实验使用的情感词典,最后根据情感词典抽取数据集中的情感词,从而使得数据集中每篇文本的极性更加突出。

  第三章 LDA建模

  3.1 LDA概念

  3.1.1 概率主题概念的提出

  海量文本的出现对文本处理提出了更高的要求,产生了以LDA、PLSA等为主的概率主题模型。在这类模型中,主题是一个抽象的概念,它表示一个潜在的语义主旨。

  通过将文档-词分布转换到文档-主题以及主题-词分布,主题模型的建模实质上是一个降维的过程,将原来高维的单词空间降维到相对较小的主题空间。

  我们可以看看人们是如何构思文章的。如果我们要写一篇文章,不管我们有意还是无意,其中总是会包含一个或者多个主题。譬如构思一篇信息检索的文章,可能30%关于自然语言处理,20%关于文本分类,30%关于概率统计等。这些主题中每个主题都有很多我们可以联想到的词:

  自然语言处理:语法、句子、词典、倒排索引、索引压缩…

  概率统计:均值、方差、马尔科夫链、分布…

  文本分类:支持向量机、朴素贝叶斯、伯努利模型、k近邻…

  因为我们在写关于这些主题的文本时,我们频繁地使用这些词,所以我们可以联想到它们。

  基于这样的想法,原先用词的分布来描述的文档可以用主题的分布来描述。即一篇文档(Document)由多个主题(Topic)混合而成,而每个主题都是词汇的概率分布,文档中每个词的生成过程为从主题中选取一个,然后从该主题中选取一个词。以数学为例,一个简单地例子如下图3.1:

  (1) M表示文档数,N表示单词数

  (2) 文档d选择主题z服从多项分布,主题z选择w也服从多项分布

  3.1.2 LDA模型

  LDA主题模型被称为贝叶斯版的PLSA模型,它是一个分层的贝叶斯模型,三个层次分别为文档、主题和词。与PLSA模型不同的是,在PLSA中参数虽然未知,但是它是一个固定的概率值,但在LDA中参数不是一个可求的固定值,而是一个分布。

  例如PLSA模型中,主题分布和词分布可以是唯一确定的,主题分布可以明确指定为{Math:0.4, geography:0.3, Chinese:0.3}。但在LDA中,主题分布和词分布不是唯一的,我们无法确切给出,例如主题分布可能是{Math:0.1, geography:0.1, Chinese:0.8},也可能是{Math:0.4, geography:0.5, Chinese:0.2}。我们不能确定主题分布的确切值,但可以指出主题分布的范围,即主题分布也服从一定的分布。主题分布以及每个主题的词分布由Dirichlet先验随即决定。

  1. 按照先验概率p(di)选择一篇文档di

  2. 由超参数α生成一个主题分布θi

  3. 从主题分布θi中取样生成文档di第 j 个词的主题zi,j

  4. 由超参数β生成主题zi,j对应的词语分布

  5. 从词语的多项式分布中采样最终生成词语ωi,j

  可以看出,LDA在PLSA的区别在于,LDA在计算主题分布和词分布加上了两个Dirichlet先验。

  3.2 实验

  LDA模型的实现有非常多的版本,其实现也相对简单,本文算法均采用python语言,使用gensim对数据进行LDA建模。

  3.2.1 划分数据集

  对经过数据预处理的所有数据,先随机打乱,然后取前900条negtive数据,前900条postive数据作为训练集,其余作为测试集。共有postive和negtive数据集各1000篇文档。

  3.2.2 数据词典

  针对训练集中的数据构建数据词典,词典的表现形式为:

  其中,第一列为词项ID,第二列为词项,第三列为词项频率本文训练集所构建的词典共1800条词项目。

  3.2.3 向量化

  即使用训练集中的数据以及上一步中生成的词典进一步生成向量化的词袋。

  在这一过程中,词的顺序被忽略,每篇文档被表示成tuple的组合的形式,在每个tuple中,key为词的ID,value为该词在本篇文档中出现的次数。

  截取corpus部分打印出来如下图每篇文档被表示成一个list,该list包含多个tuple,每个tuple为这样的形式。

  3.2.4 使用tf-idf作为特征值

  使用词项频率(tf)作为特征值有时会不太准确,有时候一篇文档中某个单词出现的次数非常多,但其实它对整篇文档的分类帮助很小,比如常见的停用词,在一些特殊情况下的术语等。如酒店评论集中的“酒店”、“服务”等词,音乐数据集中的“音调”、“五线谱”等词。

  本文采用tf-idf(词频-逆文档频率)作为词项权重代替tf(词项频率)。

  词项频率即一个单词在某一篇文档中呈现的频率,文档频率表示呈现过某个单词的文档的个数。一般来说,一个词语的文档频率越低,词项频率越高,就越能代表该文档,这样的词对文本分类来说就更重要。

  由于评论数据集很多为短文本,所以很多文档的主题分布中某几个主题的权重非常高,而其他主题的权重则为0。

  3.3 本章小结

  LDA主题模型作为一种处理文本的常用且有效的办法,在文本分类上经常会取得意想不到的效果,尤其是在大规模文本处理上。本章简单介绍了LDA主题模型的相关知识和概念,然后对本文实验数据集进行划分、构建词典、训练模型等操作,最后得到所有文档的主题分布,为下一步的分类做好准备。

  第四章 SVM分类

  4.1 SVM 概念

  SVM理论由V.Vapnik提出,它是主要用于二元分类的模型。其最基本的思想来源于特征空间上的间隔最大化的线性分类器。即给定一组数据集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,1},在D的样本空间中找到一个划分超平面,将不同类别的样本划分开来,并且使得两类文本的间隔最大化,可形式化成一个求解凸二次规划问题。支持向量机的学习算法是求解凸二次规划的最优化算法[4]。

  显然,在这种情况下,我们可以非常容易找到一个线性决策边界将数据样本划分为两类。由此,一个线性不可分问题被转化成了线性可分问题。

  如上述例子这样,将数据样本映射到高纬度,从而将线性不可分问题转化为线性可分问题进行处理的分类器,我们称之为非线性支持向量机。

  在这其中由低维度到高纬度的“变换”,由核函数完成。

  常用的一些核函数有线性核函数,多项式核函数,高斯核函数、sigmoid核函数等。

  4.2 本文中的SVC

  本文中使用python sklearn库中的LinearSVC来对文本进行分类,它采用线性核,基于liblinear实现,相比SVC,它能有更加灵活的选择处罚和损失函数。下一节将给出它的算法描述。

  4.2.1 算法描述

  4.3.3 将数据随机分为训练集和测试集

  在机器学习文本分类中,需要有一定的数据作为测试集,一定的数据作为训练集,这样在分类后获取评价指标来对分类做评估。

  本文使用python中的random里的shuffle来随机化数据,然后再把数据集文本分为训练集和测试集。

  4.3.4 SVM训练和预测

  使用python sklearn中的LinearSVC对数据进行分类,使用准确率和召回率作为评价指标得到如下结果:橙色为准确率,蓝色为召回率。

  4.3 本章总结

  SVM作为作为一种分类方法,主要在二元分类领域取得了很好的分类效果。本章简单介绍了SVM的概念,阐述了SVM中最主要的三种支持向量机的基本原理及初衷。最后,本章使用SVM以上一章节中得到的文档-主题分布作为特征向量来对文本实现分类,取得了较好的分类效果。

  第五章 贝叶斯分类

  5.1 概念

  贝叶斯分类是基于贝叶斯定理与特征条件独立假设的分类方法[2]。对于给定的训练数据集,首先根据特征条件独立假设输入/输出的联合概率分布。最后基于此模型,对给定的x,输出其后验概率最大的y。

  建立贝叶斯分类器通常有两种办法,一种是基于多项式的朴素贝叶斯,一种为基于生成式的伯努利模型。

  5.2 贝叶斯定理

  5.3 实验

  5.3.1 特征选取

  同样,选取第三章中的得到的文档-主题矩阵作为特征。每篇文档被表示为多个<主题ID,权重>的组合的形式。

  5.3.2 向量化

  同样,将文档-主题矩阵进行向量化。假如某篇文档的文档-主题矩阵为[(0, 0.4585), (4, 0.5685), (7, 0.1234)],LDA模型的主题数目为10,则该文档构建的矩阵为:[0.4585, 0, 0, 0, 0.5685, 0, 0, 0.1234, 0, 0]。

  文档数目为m,主题数量为n,则构建的是一个m*n的矩阵。

  5.3.3 朴素贝叶斯分类训练

  本文将数据集的情感分为两类,分别用数字表示。其中1表示积极,0表示消极。经过前面的两个步骤后,将数据8:2划分为训练集和数据集,对于训练集中的数据,执行5.3.1节中描述的算法进行训练。得到每个类别的先验概率以及每个主题的条件概率。

  5.3.4 测试

  选取数据集中的文档的部分段落用来测试,根据公式5.8和5.9将文本分类为后验概率最大的类别,结果如下:

  这地方千万别去住了,绣花枕头一个。样子好看,。别的没什么的,大冷天不开空调还说他们觉得没必要开,气的你要死呢。第2天我就搬家了, ---0

  设施老化,紧靠马路噪音太大。晚上楼上卫生间的水流声和空调噪音非常大,无法入眠,跟总台反映后,服务员姗姗来迟,强调就是如此。建议入住开发区安庆大酒店和市区人民路的锦江之星 ---0

  非常一般的酒店,房里设施很旧,房间送餐竟然要加多50%的送餐费。总之找不到好的方面来说,有其他选择就不要去了 ---0

  我住的是新装修的东楼,感觉房间挺宽敞,设施也不错,相对于隔壁的香格里拉一店都不差。只是酒店其他方面例如大堂、西餐厅的环境和食物品种还需改进。否则价格差不太远,我还不如住香格里拉了。 ---1

  住了几次,价格高,房间差,床又小。要不是在携程上宜宾就这几个宾馆,我早不住了。今天去了,服务态度极差,我发誓再也不去了。郁闷 ---0

  5.3.5 准确率

  选取不同的主题个数对测试集进行分类。准确率和召回率如下图:

  朴素贝叶斯分类器在LDA主题数目为30时得到了较好的分类效果。与SVM相比,在此数据集上的贝叶斯分类效果更加稳定,准确率更高。

  综合SVM分类得到的数据可知,该数据集在LDA主题数目为20~30时能得到比较好的分类效果。

  5.4 本章总结

  贝叶斯分类时一种简单易理解也容易操作的分类方法,其简单有效的特性得到很多计算机科学家的青睐。本章叙述了贝叶斯分类最主要的两种模型,并选择其中的朴素贝叶斯分类器对数据集进行分类,取得了较好的分类效果。

  第六章 总结与展望

  6.1 本文主要内容总结

  情感分析作为一个新兴领域,具有重要的研究价值。对于不同的数据集,如何辨别其是否包含情感信息,其情感信息的极性是什么,这样的研究在如今的大数据时代有非常多的应用。

  对于网络上的酒店评论数据的情感分析,可以了解到以往客户对该酒店的看法,决定未来客户是否会选择该酒店,甚至预测该酒店未来的受欢迎程度。

  本文通过研究该数据集的特征,深入探究了情感分析的实现方法,借鉴国内外目前的研究倾向,使用了主题模型以及常用的分类器来对数据进行情感分析。

  本文的主要工作有:

  (1)对酒店评论数据集进行预处理。根据评论中出现的单词特点,选取了目前表现较好的情感词典并整合。对文本进行分词、去除停用词、抽取情感信息。

  (2)LDA模型构建。使用tf-idf作为特征值,将文本从原来的文档-词表示为文档-主题矩阵,从而实现降维的效果。

  (3)使用SVM分类进行情感分类。使用LDA主题模型中得到的主题分布作为特征向量,转化为稀疏矩阵,然后利用SVM进行分类。

  (4)使用贝叶斯分类器分类。朴素贝叶斯分类器在文本分类上非常有效果。

  6.2 存在的问题以及未来展望

  在目前的情感分类存在的一些问题以及可能改善的地方:

  (1)将文本的情感程度打分而不是简单地褒贬二元分类。比如将文本得分限制在[-1,1]之间,越靠近1则越偏向褒义,反之则越偏向贬义。这种分类对文本处理的要求更高,分类器很难处理这样的分类任务,尤其是SVM。

  (2)一些程度副词本身的情感极性是不明显的。如“非常”、“十分”、“超级”等词,如果这些词后面接的是褒义词,那么该文本的极性应该更加偏向于褒义,反之则更加偏向于贬义。本文情感分析使用的是词袋模型,无法对这种与词顺序有关的操作。但是简单地将程度副词划分极性,这样是不准确的。

  (3)本文数据集多为短文本,LDA在处理短文本时存在一定的问题。

  (4)数据集中其实存在许多特定的主题,比如服务,房间,空气等,这些主题是评价酒店的每个侧面,但每个评论文本中这些主题并不突出,从LDA生成的主题-词分布中向这样实际存在的主题靠拢的现象并不明显。

毕业论文:http://www.3lunwen.com/jsj/dzjs/5390.html

上一篇:基于IntoRobot云平台的车内空气质量远程监测系统研发

下一篇:没有了

     移动版:基于lda的文本情感分析

本文标签:
最新论文