分析twitter进行研究:从小数据到大数据

2024-03-28 15:33:38 发布

您现在位置:Python中文网/ 问答频道 /正文

作为我们大学项目的一部分,我们有一项研究工作,我们需要分析twitter数据。你知道吗

我们已经使用pandas和nltk构建了分类和分析的原型,从csv文件中读取注释,然后对其进行处理。现在的问题是,我们想扩大它,以便阅读和分析一些大的评论文件也。但问题是,我们没有任何人可以指导我们(他们大多数来自生物学背景)用什么技术来处理这么多的问题。你知道吗

我们的问题是:

1.]如何存储大量评论文件(5 gb,脱机数据)。到目前为止,我们只有5000-10000行的评论,我们使用熊猫处理。但是我们如何存储和处理如此庞大的文件呢。使用哪个数据库。你知道吗

2.]另外,既然我们计划在这些数据上使用nltk,机器学习,那么我们的方法应该是什么:csv->;熊猫,nltk,机器学习->;模型->;预测。也就是说,在这条道路上,我们在哪里需要改变,我们应该用什么技术来取代它们来处理巨大的数据。你知道吗


Tags: 文件csv数据项目gt机器pandas评论
1条回答
网友
1楼 · 发布于 2024-03-28 15:33:38

一般来说,有两种类型的缩放:

  • 向上缩放
  • 向外缩放

放大,大多数情况下,意味着利用已有的资源,在更大的机器上运行(CPU、RAM、磁盘吞吐量更大)。你知道吗

横向扩展通常意味着划分问题,并在不同的线程/进程/机器上处理部分。你知道吗

扩展要容易得多:保留已有的代码并在大型计算机上运行(如果没有可用的代码,可以在amazonec2或Rackspace上运行)。你知道吗

如果放大还不够,你就需要缩小。首先确定问题的哪些部分可以划分。因为您正在处理twitter评论,所以很有可能您可以简单地将文件划分为多个文件,并训练N个独立的模型。你知道吗

因为您只是在处理文本数据,所以使用数据库而不是纯文本文件(至少用于存储输入数据)并没有太大的优势。只需将文件拆分为多个文件,并将每个文件分发到不同的处理单元。你知道吗

根据您使用的特定机器学习技术,将独立模型合并为单个模型可能很容易,但可能需要专家知识。你知道吗

例如,如果您使用K-最近邻,那么加入独立模型就很简单了

相关问题 更多 >