Twitter情感分析技术

2024-04-25 05:52:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个关于twitter情绪分析的项目,但是有些事情我在思考。在

既然tweet非常短(少于140个字符),那么什么样的文本分析技术应用得最好。例如。词干分析和长文章一样有效吗?在

n克呢?短促的微博对他们来说是最好的还是最坏的?在

k-nearest比词性标注更准确吗?在

随着时间的推移,我的自定义twitter数据集会变得不相关/损坏吗?因为twitter和它上面的信息变化如此之快,这也是我最关心的问题。在

非常感谢您抽出时间。在

PS:你有没有什么好的twitter情感数据集?定期更新就好了。在


Tags: 数据项目文本文章时间twitter事情技术
2条回答

我做了一些功课,分析名人的微博并比较它们的相似之处。在

最大的问题,你认为,是一条微博的长度。在140个字符,许多单词被缩短,或不寻常的“txt语音”。所以即使是一个众所周知的词干分析器,比如Porter也会给出一些奇怪的结果。最好保留几乎所有的内容,只在字数、向量等之后进行规范化

从单词推断,n-grams和以下链接是质量推断的一个重要因素。我只能忍受4-gram的空间和时间需求,但是即使创建简单的2-gram也有很大的改进。在

如果你注意到我刚才说了“几乎所有的事”。在我只关注热门名人推文的情况下,我遇到了一个问题:他们的很多微博都是与他们的活动、赞助商等的链接或呼喊,所以很大一部分是删除大量重复的垃圾邮件。在

对于提取准确情绪的方法或任何你想要的衡量标准,我会首先尝试基于朴素贝叶斯的方法。对于基线,它是简单和相对准确的。K-means会做得相当好,但是要记住,它没有考虑方差和协方差,但是它是另一个可以尝试的基线。在

希望能提供一些见解。在

我最近在twitter上对一部电影做了一个分析,以了解人们在twitter上对这部电影有何评论,他们是否喜欢这部电影。这个链接对我帮助很大。此外,我还收集了一份在推特上常用的快捷方式列表,其中涵盖了人们的情绪。在

另外,一个人的tweet只能保存到3000(或者3.5k不确定?)你自己的时间轴流也有类似的限制。因此,您可以使用http://topsy.com获取您选择的tweet或主题,并从那里获取特定主题的旧tweet进行分析。你可能还想定期保存你需要的tweets,以备将来参考,因为twitter不会为你保存。在

:)

相关问题 更多 >