维德情绪分析。vader(valence-aware dictionary and mootion reasoner)是一个基于词汇和规则的情感分析工具,它特别适合于社交媒体中表达的情感,并且在其他领域的文本中也有很好的应用。

vaderSentiment的Python项目详细描述


维德情绪分析
==================================== < BR>
vader(瓦伦斯感知词典和情感推理器)是一个词汇和基于规则的情感分析工具,它*特别适合社交媒体中表达的情感*。它是完全开源的,`[mit license]<;http://choosalicense.com/>;`(我们真诚地感谢您的所有贡献,并随时接受大多数贡献,但请不要追究我们的责任)。 < BR>
*`功能和更新`_
*简介_
*`引文信息`_
*安装_
*`资源和数据集说明`_
*`python代码示例`_
*`关于评分`_
*`其他编程语言的端口`_ < BR>
功能和更新
--
非常感谢乔治·贝里、伊万·克莱恩、皮耶尔保罗·潘通为维德做出的重要贡献。新的更新包括以下功能: < BR>
重构Python3的兼容性,改进模块性,并将其并入`[nltk]<;http://www.nltk.org/\u modules/nltk/mootion/vader.html>;`` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` `
重组以提高速度/性能,将时间复杂度从o(n^4)降低到o(n)…多亏了乔治。
简化了pip安装,更好地支持vadermousion模块和组件导入。(对vader_lexicon.txt文件的依赖现在使用自动文件位置发现,因此不需要在代码中手动指定其位置,也不需要将文件复制到执行代码的目录中。)
在"vadermousion.py"的"main"中有更完整的演示。演示有: < BR>
*情感分析的典型用例示例,包括正确处理以下句子: < BR>
-典型的否定(例如"*不好")
-使用收缩作为否定(例如,"*不是很好")
-传统使用**标点符号**表示情绪强度增加(例如,"很好!!!!
-常规使用**字型**表示强调(例如,对单词/短语使用全大写)
-使用**度数修饰符**来改变情绪强度(例如强度*助推器*如"非常"和强度*阻尼器*如"种类")
-理解许多充满感情的俚语(如sux)
-理解许多充满感情的**俚语作为修饰语**,如"uber"、"friggin"或"kinda"
-理解许多充满感情的**表情**,例如:)和:d
-翻译**utf-8编码的表情符号**,例如和和
-理解充满感情的**缩写和缩写**(例如:"lol") < BR>
*更多混淆其他情绪分析工具的**复杂句子**示例
*举例说明维德如何与NLTK一起对较长的文本进行情感分析**…即将段落、文章/报告/出版物或小说分解为句子级分析
*评估图像、视频或其他标记的**多媒体内容的情感的概念示例**
*如果您可以访问Internet,演示程序提供了一个示例,说明维德如何分析**其他语言文本**(非英语文本句子)的情感。 < BR>
====================================
介绍
==================================== < BR>
本自述文件描述了论文的数据集: < BR>
**维达:一个基于规则的简约情绪分析模型是社交媒体文本**
(作者C.J.Hutto和Eric Gilbert)
第八届网络日志和社交媒体国际会议(ICWSM-14)。密歇根州安娜堡,2014年6月。 < BR>
如有疑问,请联系:
C.J.赫托 乔治亚理工学院,佐治亚州亚特兰大,邮编30032
cjhutto[在]gatech[点]edu < BR>< BR>
引文信息
-- < BR>
如果您在研究中使用数据集或任何维德情感分析工具(维德情感词典或基于规则的情感分析引擎的python代码),请引用上述文章。例如: < BR>
**Hutto,C.J.和Gilbert,E.E.(2014年)。维德:一个基于简约规则的社交媒体文本情感分析模型。第八届网络日志和社交媒体国际会议(ICWSM-14)。密歇根州安娜堡,2014年6月。** < BR>
====================================
安装
==================================== < BR>
有两种安装和使用维德情感的方法: < BR>
最简单的方法是使用命令行从`[pypi]<;https://pypi.python.org/pypi/vadermousion>;``使用pip进行安装,例如,
``>;pip安装vadermousion``
或者,您可能已经有了vader,只需要升级到最新版本,例如,
``>;pip安装——升级vadermomentation``
您还可以克隆此"[github存储库"<;https://github.com/cjhutto/vadermousion>;。`_
您可以下载并解压缩`[full master branch zip file]<;https://github.com/cjhutto/vadermousion/archive/master.zip>;。`_ < BR>
除了vader情绪分析python模块之外,选项3或4还将下载所有其他资源和数据集(如下所述)。 < BR>
====================================
资源和数据集描述
==================================== < BR>
这里的包包括**主要资源**(项目1-3)以及额外的**数据集和测试资源**(项目4-12): < BR>
vader_icwsm2014_final.pdf
数据集的原始论文,请参见引文信息(见上文)。 < BR>
维德词典.txt
格式:文件用标记、平均情绪评分、标准差和原始人类情绪评分分隔
注意:当前算法立即使用前两个元素(标记和平均价)。最后两个元素(标准差和原始评级)提供了严格性。例如,如果你想遵循我们在研究中使用的同样严格的过程,你应该找到10个独立的人来评估/评价你想添加到词典中的每个新标记,确保标准差不超过2.5,并取价格的平均值。这将保持文件的一致性。 < BR>
说明:
经过多个独立的人类法官的经验验证,维德融入了一个"金本位"的情感词汇,尤其是与微博式的语境相适应。 < BR>
维德情感词典对社交媒体语境中表达的情感的**极性**和**强度**都很敏感,也普遍适用于其他领域的情感分析。 < BR>
来自10个独立的人工评分者的情绪评分(均经过预先筛选、培训和质量检查,以获得最佳的评分者可靠性)。超过9000个代币功能被评为从"[-4]极负"到"[4]极正",允许使用"[0]中性(或两者都不是,不适用)"。我们保留了所有具有非零平均评分的词汇特征,其标准差小于2.5,由这十个独立评分者的总和决定。这给我们留下了7500多个词汇特征,其中验证了价分,表明情绪极性(正/负),以及从-4到+4的情绪强度。例如,"好"这个词的正价是0.9,"好"是1.9,"好"是3.1,而"恐怖"是-2.5,皱眉头的表情符号是-2.2,"烂"和俚语派生词"sux"都是-1.5。 < BR>
手工创建(更不用说验证)一个全面的情感词典是一个劳动密集型过程,有时容易出错,因此难怪许多观点挖掘研究人员和实践者如此依赖现有词典作为主要资源。我们很高兴提供我们的新资源。我们首先构建了一个列表,该列表的灵感来自于对现有的成熟情感词库(liwc、anew和gi)的检查。为此,我们接下来将微博中情感表达的常见词汇特征包括: < BR>
*西式表情符号的完整列表,例如:-)表示笑脸,通常表示积极情绪
*与情感相关的首字母缩写和缩写(例如,lol和wtf都是充满情感的首字母缩写)
*具有情感价值的常用俚语(例如,不,喵喵,傻笑)。 < BR>
我们使用群体智慧(wotc)方法(surowiecki,2004)实证确认了每个候选特征对情绪表达的普遍适用性,以获得每个上下文无关的候选特征的情绪价格(极性和强度)的有效点估计。特征。 < BR>
虚情假意.py
基于规则的情绪分析引擎的python代码。实现文中所述的语法和句法规则,并结合经验推导出的量化方法,研究每个规则对句子级文本中情感感知强度的影响。重要的是,这些启发式方法超出了通常在典型的单词包模型中捕获的范围。它们包含了术语之间的**词序敏感关系**。例如,程度修饰语(也称为加强词、加强词或程度副词)通过增加或减少强度来影响情绪强度。请考虑以下示例: < BR>
(a)"这里的服务非常好"
(b)"这里的服务很好"
(c)"这里的服务稍好" < BR>
从文中的表3可以看出,对于95%的数据,使用度数修饰符可以将示例(a)的积极情绪强度增加0.227到0.36,在1到4的评分表中,平均差异为0.293。同样,示例(c)平均将感知情绪强度降低0.293。 < BR>
tweets_groundtruth.txt
格式:文件用id、mean-moutation-rating和tweet-text分隔 < BR>
描述:包括"tweet-like"文本,其灵感来源于从twitter的公共时间线中提取的4000条tweet,外加200条完全虚构的tweet-like文本,旨在专门测试表达情感强度差异的语法和句法惯例。"tweet-like"文本包含一个虚拟用户名(@anonymous)在用户名可能出现的地方,以及一个假的url(http://url_removed)在url可能出现的地方,灵感来自原始tweets。id和mean-mobility-rating对应于raw"tweets_anodatarantings.txt"中提供的情绪评级数据(如下所述)。 < BR>
tweets_anodatarantings.txt
格式:文件用id、mean-mootion-rating、standard deviation和raw-mootion-ratings分隔 < BR>
描述:至少20名独立的人工评分员的情绪评分(所有评分员均经过预先筛选、培训并进行质量检查,以获得最佳的评分员可靠性)。 < BR>
nyteditorialsnippets\u groundtruth.txt
格式:文件用id、mean-moutation-rating和文本片段分隔 < BR>
描述:包括来自500篇纽约时报观点新闻社论/文章的5190个句子级片段;我们使用nltk标记器将文章分割成句子短语,并添加情感强度评级。id和mean-mobility-rating对应于"nyteditorialsnippets_anodatarantings.txt"(如下所述)中提供的原始情绪评级数据。 < BR>
nyteditorialsnippets\u anodatarantings.txt
格式:文件用id、mean-mootion-rating、standard deviation和raw-mootion-ratings分隔 < BR>
描述:至少20名独立的人工评分员的情绪评分(所有评分员均经过预先筛选、培训并进行质量检查,以获得最佳的评分员可靠性)。 < BR>
moviereviewsnippets_groundtruth.txt电影
格式:文件用id、mean-moutation-rating和文本片段分隔 < BR>
描述:包括来自rotten.tomatos.com的10605个句子级片段。这些片段来自Pang&Lee(2004)的一组2000条电影评论(1000条正面评论和1000条负面评论);我们使用NLTK标记器将评论分成句子短语,并添加情感强度评级。ID和平均情绪评级对应于"moviereviewsnippets_anodatarantings.txt"(如下所述)中提供的原始情绪评级数据。 < BR>
moviereviewsnippets_anodatarantings.txt
格式:文件用id、mean-mootion-rating、standard deviation和raw-mootion-ratings分隔 < BR>
描述:至少20名独立的人工评分员的情绪评分(所有评分员均经过预先筛选、培训并进行质量检查,以获得最佳的评分员可靠性)。 < BR>
amazonreviewsnippets_groundtruth.txt
格式:文件用id、mean-moutation-rating和文本片段分隔 < BR>
描述:包括来自5种不同产品309个客户评论的3708个句子级片段。这些评论最初用于hu&liu(2004);我们增加了情绪强度评级。id和mean-mobility-rating对应于"amazonreviewsnippets_anodatarantings.txt"(如下所述)中提供的原始情绪评级数据。 < BR>
amazonreviewsnippets_anodatarantings.txt网站
格式:文件用id、mean-mootion-rating、standard deviation和raw-mootion-ratings分隔 < BR>
描述:至少20名独立的人工评分员的情绪评分(所有评分员均经过预先筛选、培训并进行质量检查,以获得最佳的评分员可靠性)。 < BR>< BR>
包含更多论文/研究的综合社交网站:
[社交网站](http://comp.social.gatech.edu/papers/) < BR>
====================================
python代码示例
==================================== < BR>
对于**更完整的演示**,请将您的终端指向vader的安装目录(例如,如果您使用pip安装,它可能是`\python3x\lib\s it e packages\vadermousion``),一个然后运行"python vadermousion.py"。 < BR>
演示中有更多复杂的句子示例,这些句子会混淆其他情绪分析工具。它还演示了维德如何与nltk一起对较长的文本进行情感分析,即将段落、文章/报告/出版物或小说分解为句子级分析。它还演示了评估图像、视频或其他标记多媒体内容的情感的概念。 < BR>
如果您可以访问互联网,演示还将展示维德如何分析非英语文本句子的情感。 < BR>
: < BR>
来自vadermousion.vadermousion导入情感强度分析器
注意:根据您的安装方式(例如,使用源代码下载与pip安装),您可能需要这样导入:
< BR>
示例-----
句子=["维德聪明、英俊、有趣。",正面句子示例
"维德聪明、英俊、有趣!",标点符号强调处理正确(情绪强度调整)
"维德非常聪明、英俊、有趣。",正确处理助推词(情绪强度调整)
"维德非常聪明,英俊,有趣。",强调所有的帽子
"维德非常聪明,英俊,有趣!!,信号组合-维德适当调整强度
"维德非常聪明,超级英俊,而且非常有趣!!,助推词和标点符号使此接近分数上限
"维德不聪明,不英俊,也不风趣。","否定句示例
"这本书很好。","肯定的句子"
"至少这不是一本恐怖的书。","用缩写否定否定句"
"这本书是唯一一种好的。","合格的肯定句处理正确(强度调整)
"情节很好,但人物很难理解,对话也不好。","混合否定句"
"今天的SUX!",强调大写的否定俚语
"今天只是一种运动!不过,我还是算了,哈哈,",混合感情的例子,俚语和解释性连词"但是"
"确保您:)或:d今天!",处理的表情符号
"捕捉utf-8表情符号,例如和和",处理表情符号
"一点也不坏"大写否定
< BR>
分析器=情感强度分析器()
对于句子中的句子:
vs=分析仪。极性评分(句子)
打印("{:-<;65}{}"。格式(句子,str(vs))) < BR>< BR>
有关**更完整的演示**,请转到安装目录并运行"python vadermousion.py"。(确保您已设置为在终端或IDE中处理UTF-8编码。) < BR>
====================================
以上示例代码的输出
==================================== < BR>
: < BR>
维德聪明、英俊、风趣。-----{'pos':0.746,'compound':0.8316,'neu':0.254,'neg':0.0} 维德聪明,英俊,有趣!——{'pos':0.752,'compound':0.8439,'neu':0.248,'neg':0.0}
维德非常聪明,英俊,有趣。---{pos':0.701,'compound':0.8545,'neu':0.299,'neg':0.0}
维德非常聪明、英俊、有趣。-----{'pos':0.754,'compound':0.9227,'neu':0.246,'neg':0.0}
维达非常聪明,英俊,有趣!!!!{'pos':0.767,'compound':0.9342,'neu':0.233,'neg':0.0}
维达非常聪明,超级英俊,而且非常有趣!!!!——{'pos':0.706,'compound':0.9469,'neu':0.294,'neg':0.0}
维德既不聪明,也不英俊,也不风趣。---{'pos':0.0,'compound':-0.7424,'neu':0.354,'neg':0.646}
这本书写得很好。-----{'pos':0.492,'compound':0.4404,'neu':0.508,'neg':0.0}
至少它不是一本恐怖的书。-----{'pos':0.363,'compound':0.431,'neu':0.637,'neg':0.0}
这本书是唯一一种好的东西。---------{'pos':0.303,'compound':0.3832,'neu':0.697,'neg':0.0}
情节很好,但角色很难处理,对话也不太好。{'pos':0.094,'compound':-0.7042,'neu':0.579,'neg':0.327}
今天的SUX!————{'pos':0.0,'compound':-0.5461,'neu':0.221,'neg':0.779}
今天只是一种运动!但我会过去的,lol----------{'pos':0.317,'compound':0.5249,'neu':0.556,'neg':0.127}
确保您:)或:d今天!-------------{'pos':0.706,'compound':0.8633,'neu':0.294,'neg':0.0}
捕获utf-8表情符号,如和和——
一点也不坏----------------------------------{'pos':0.487,'compound':0.431,'neu':0.513,'neg':0.0} < BR>< BR>
====================================
关于评分
==================================== < BR>
*计算"复合词"的分数时,将词典中每个词的价分相加,根据规则进行调整,然后标准化为-1(最极端的负)和+1(最极端的正)之间。这是最有用的指标,如果你想要一个单一的一维情绪测量给定的句子。称之为"标准化加权综合得分"是准确的。 < BR>
这对于那些希望设置标准化阈值来将句子分类为正、中性或负的研究人员也很有用。
典型的阈值(在本页引用的文献中使用)是: < BR>
**正面情绪**:``compound``score>;=0.05
**中性情绪**:(``compound``score>;-0.05)和(``compound``score<;0.05)
**负面情绪**:``compound``score<;=-0.05 < BR>
*pos`、`neu`和`neg``分数是每一类文本所占比例的比值(因此,这些加起来应该是1……或接近它的浮动操作)。如果你想对一个给定的句子进行多维情绪测量,这些是最有用的指标。 < BR>
====================================
到其他编程语言的端口
====================================
请随时告诉我有关维达情感到其他编程语言的端口。到目前为止,我知道这些有用的端口: < BR>
爪哇
`vadermomentjava<;https://github.com/apanimesh061/vadermomentjava>;``作者:apanimesh061 < BR>
JavaScript
`vadermousion js<;https://github.com/vadermousion/vadermousion js>;` < BR>
PHP
`php vadermousion<;https://github.com/abusby/php vadermousion>;``阿布斯比 < BR>
斯卡拉
`情感<;https://github.com/ziyasal/mousion>;``作者:ziyasal < BR>
关键词:维达、情感、分析、意见、挖掘、NLP、文本、数据、文本分析、意见分析、情感分析、文本挖掘、Twitter情感、意见挖掘、社交媒体、Twitter、社交媒体
平台:未知
分类器:开发状态::4-测试版
分类器:目标受众:科学/研究
分类器:许可证::OSI批准::MIT许可证
分类器:自然语言:英语
分类器:编程语言::python::3.5
分类器:主题:科学/工程:人工智能
分类器:主题::科学/工程::信息分析
分类器:主题::文本处理::语言
分类器:主题::文本处理::常规
描述内容类型:文本/标记 < BR>

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spring框架服务单元测试   在Java中遍历hashmaps的hashmap以检索字符串值   如何使用CodeQL检查Java注释是否具有特定属性?   java为什么在Spring Boot中访问此资源而不是登录弹出窗口需要始终获得完全身份验证   处理将多集计数转换为列表的过程   java另一个线性布局,没有出现按钮   eclipse Java映像加载未显示在jar中   java Junit类无法加载基本测试类ApplicationContext   java如何在main中使用my getvalues()方法打印列表   java Sonar,S128:切换案例应该以无条件的“中断”语句结束,而不是继续   java从socket读取字符串错误连接重置错误   java使用新数据刷新任意图表饼图   java通过异步运行lambda访问方法参数   java错误的结果一旦我处理try and catch