我正在做一个关于twitter情绪分析的项目,但是有些事情我在思考。在
既然tweet非常短(少于140个字符),那么什么样的文本分析技术应用得最好。例如。词干分析和长文章一样有效吗?在
n克呢?短促的微博对他们来说是最好的还是最坏的?在
k-nearest比词性标注更准确吗?在
随着时间的推移,我的自定义twitter数据集会变得不相关/损坏吗?因为twitter和它上面的信息变化如此之快,这也是我最关心的问题。在
非常感谢您抽出时间。在
PS:你有没有什么好的twitter情感数据集?定期更新就好了。在
Tags:
我做了一些功课,分析名人的微博并比较它们的相似之处。在
最大的问题,你认为,是一条微博的长度。在140个字符,许多单词被缩短,或不寻常的“txt语音”。所以即使是一个众所周知的词干分析器,比如Porter也会给出一些奇怪的结果。最好保留几乎所有的内容,只在字数、向量等之后进行规范化
从单词推断,n-grams和以下链接是质量推断的一个重要因素。我只能忍受4-gram的空间和时间需求,但是即使创建简单的2-gram也有很大的改进。在
如果你注意到我刚才说了“几乎所有的事”。在我只关注热门名人推文的情况下,我遇到了一个问题:他们的很多微博都是与他们的活动、赞助商等的链接或呼喊,所以很大一部分是删除大量重复的垃圾邮件。在
对于提取准确情绪的方法或任何你想要的衡量标准,我会首先尝试基于朴素贝叶斯的方法。对于基线,它是简单和相对准确的。K-means会做得相当好,但是要记住,它没有考虑方差和协方差,但是它是另一个可以尝试的基线。在
希望能提供一些见解。在
我最近在twitter上对一部电影做了一个分析,以了解人们在twitter上对这部电影有何评论,他们是否喜欢这部电影。这个链接对我帮助很大。此外,我还收集了一份在推特上常用的快捷方式列表,其中涵盖了人们的情绪。在
另外,一个人的tweet只能保存到3000(或者3.5k不确定?)你自己的时间轴流也有类似的限制。因此,您可以使用http://topsy.com获取您选择的tweet或主题,并从那里获取特定主题的旧tweet进行分析。你可能还想定期保存你需要的tweets,以备将来参考,因为twitter不会为你保存。在
:)
相关问题 更多 >
编程相关推荐