资料详情

基于朴素贝叶斯的推特实时情感分析(外文翻译)

头像

理工论文

编号:10883

 

 

 

 

毕业设计(论文)

译文及原稿

 

译文题目

基于朴素贝叶斯的推特实时情感分析

 

 

原稿题目

Real Time Sentiment Analysis of Tweets Using Naive Bayes

 

 

原稿出处:

Ankur Goel,Jyoti Gautam,Sitesh Kumar.[C]. 2016 2nd International Conference on Next Generation Computing Technologies.Dehradun:Springer Singapore,2016:257-261.

 

 


基于朴素贝叶斯的推特实时情感分析

 


安库戈尔

印度诺伊达JSS技术教育学院

goel_ankur@hotmail.com

 

乔蒂・高塔姆

印度诺伊达JSS技术教育学院

jyotig@jssaten.ac.in

 

锡特什库马尔

印度诺伊达JSS技术教育学院

sh226@gmail.com


摘要:Twitter是一个微型博客网站,它为人们提供了一个分享和表达他们对话题、事件、产品和其他服务的观点的平台。根据推文与搜索主题的相关性,可以将推文分为不同的类别。目前,各种机器学习算法被用于根据推文的情感将推文分为积极类和消极类,如基线、朴素贝叶斯分类器、支持向量机等。本文利用twitter数据库实现了基于感知140训练数据的朴素贝叶斯算法,并提出了一种改进分类的方法。利用感知网络和朴素贝叶斯可以提高推文分类的准确性,提供推文中出现的单词的积极性、消极性和客观性得分。对于这个系统的实际实现,使用了pythonNLTKpython-twitter api

 

关键词:Twitter,感知网络,机器学习,NLTKPython,情感分析

 

1 介绍

如今,社交媒体风靡全球,以至于对贸易和营销产生了重大影响。人们在社交网站上分享他们宝贵的观点、意见和经验,以便其他人可以从中受益。Twitter就是这样一个平台,普通人可以通过用140个字符的简短博客来分享他们的评论。这些评论可以用于任何产品或服务,比如电影、股票市场、学校、学院、政治等等。在这里,人们分享对他们想要的任何东西的公正的看法,这就是为什么我们可以认为这些评论是更普遍和真实的。整个系统的实现包括五个基本步骤:第一步是根据问题类型选择训练数据,第二步是训练数据的预处理,意味着删除无关的信息,如网址、用户名、俚语、符号等,第三步是使用twitter API建立与twitter数据库的连接,从中可以提取最近的推文进行分析,第四步利用朴素贝叶斯、支持向量机等多种机器学习算法,将推文分类为不同的类别,最后一步根据推文分类后的极性显示结果。感知网络是一种广泛用于意见挖掘的词汇资源,它为每个词集提供了情感评分。这些分数有三种类型:积极性得分、消极性得分和客观性得分。因此,不必使用传统的朴素贝叶斯方法,可以考虑这些分数,从而获得更高的准确性。

第三部分对所做的所有理论工作进行了说明,如如何收集资源、如何整合资源、如何模拟资源等;第四部分将传统的分类方法与基于感知网络的分类方法进行了比较,并给出了未来的研究范围、附录和参考文献。

 

2 文献调查

在情感分析领域已经做了大量的研究工作。但推特的非正式语气一直是分析的一个挑战。由于推文的公正性,twitter数据库一直以来都是关注电影、产品、人气或其他类似事物的情感分析。情感分析已经被广泛的研究所取代,从文档级分类Tirney2002PangLee2004)到句子水平(胡和刘,2004KimHovy2004)到引出短语EsuliSebastini2006Alec GoRicha BhayaniLei Huang2009年提出了一种利用远程监控将推文分为积极性和消极性两类的方法。他们提出了一种根据查询项自动分类推特消息情感的方法。他们给出了机器学习算法(朴素贝叶斯、最大熵和支持向量机)的分类结果。Efthymios KouloumisTheresa WilsonJohanna Moore2011研究了使用语言特征来检测推特消息的情感。他们使用hashtagged 数据集(HASH进行开发和训练,主要目的是采用一种监督的方法,利用twitter数据中现有的标签来构建培训数据。Hassan SaifYulan HeHarith Alani2012年解释了一种将语义作为附加特征添加到情感分析训练集的方法。对于每个提取的实体,它的语义概念被添加为一个附加特征,并且计算了代表性概念与积极/消极情感的相关性。将sentiwordnet用作情感分析的词汇资源Stefano BaccianellaAndrea EsuliFabrizio Sebastiani增加了以前传统分类方法的效率。本文解释了与以前版本的WORDNETSENTIWORDNET相比,使用SENTIWORDNET 3.0如何提高分类效率。

 

3 系统模型

情感模型的基本架构如图1所示的方框图所示,展示了实时推特情感分析的各个阶段。本系统涉及的各个步骤如下所述。

 

1:系统流程图