我有一个关于情绪分析的问题,我需要帮助。在
现在,我有一堆通过twitter搜索api收集的tweet。因为我使用了我的搜索词,所以我知道我要查看的主题或实体(人名)。我想知道别人对这些人的看法。在
首先,我下载了一个英语单词列表,上面有已知的价/情分数,然后根据tweet中这些单词的可用性计算情感(+/-)。事实上,我看这个人的语气更像是有意的。在
例如,我有一条微博:
"lol... Person A is a joke. lmao!"
这个信息显然是正面的,但a个人应该得到一个否定的语气。在
为了改进我的情绪分析,我可能会考虑到否定词和修饰词。但是,我怎样才能让我的情绪分析转而关注邮件的主题(可能还有讽刺)?在
如果有人能告诉我一些资源。。。。在
在等待人工智能领域研究人员的答案时,我会给你一些线索,告诉你你可以快速做些什么。在
尽管这个主题需要自然语言处理、机器学习甚至心理学的知识,但你不必从头开始,除非你绝望或对该领域正在进行的研究质量不信任。在
情绪分析的一种可能的方法是将其视为一个有监督的学习问题,其中你有一些小的训练语料库,其中包括人工标注(稍后介绍)和一个测试语料库,在这个语料库上测试你的方法/系统的执行情况。为了训练你需要一些分类器,比如SVM,HMM或者其他一些,但是要保持简单。我会从二进制分类开始:好的,坏的。你可以对一个连续的意见范围,从正面到负面,也就是说,获得一个排名,就像谷歌,最有价值的结果排在首位。在
对于启动检查libsvm classifier,它可以进行分类{good,bad}和回归(排名)。 注释的质量将对您获得的结果产生巨大的影响,但是从哪里获得呢?在
我找到了一家餐馆。这里有数据和代码,所以你可以看到他们是如何从自然语言中提取特征的,以及哪些特征在分类或回归中得分较高。 语料库包括顾客对他们最近访问过的餐馆的意见,并就食物、服务或氛围给出了一些反馈。 他们的意见和数字世界的联系是通过他们给餐厅的明星数量来表达的。你在一个网站上有自然语言,在另一个网站上有餐厅的价格。在
看看这个例子,你可以为所述问题设计自己的方法。 也看看nltk。有了nltk,你可以做部分词性标注,如果运气好的话,也可以得到名字。完成这项工作后,你可以向你的分类器添加一个功能,如果在n个单词(跳过n-gram)内有表达意见的单词(查看餐厅语料库)或使用你已经拥有的权重,那么它将为一个名字分配一个分数,但最好依靠一个分类程序来学习权重,这是他的工作。在
在目前的技术状况下,这是不可能的。在
英语(和任何其他语言)都非常复杂,而且还不能被程序“解析”。为什么?因为每件事都必须特殊处理。说某人是笑话是笑话的特例,这是程序中的另一个例外。等等等等
一个很好的例子(由sciencefliction在这里的某处发布):
如果你愿意花40年的时间在这上面,你会很感激的
我不完全同意nightcracker所说的话。我同意这是一个棘手的问题,但我们正在朝着解决问题的方向取得进展。在
例如,“词性”可以帮助你理解句子中的主语、动词和宾语。在丰田vs.thriller的例子中,“n-grams”可能会帮助你弄清楚背景。看TagHelperTools。它建立在weka之上,并提供词性和n-gram标记。在
尽管如此,很难得到OP想要的结果,但不会花40年的时间。在
相关问题 更多 >
编程相关推荐