在网络上发布的大数据集的统计分析

4 投票
1 回答
1780 浏览
提问于 2025-04-15 21:46

我有一个和电脑无关的数据记录器,它会从现场收集数据。这些数据以文本文件的形式存储,我需要手动把这些文件整理在一起。目前的数据格式是每个记录器每年一个csv文件。每个文件大约有400万行数据,7个记录器,5年时间,这数据量可真不少。有些数据是按照类别、类型、尺寸等组织的,还有一些数据比较独特,比如物品的重量、颜色、采集日期等等……

现在,我使用我自己写的一个python/numpy/matplotlib程序对这些数据进行统计分析。这个程序运行得不错,但问题是,只有我能用,因为它和数据都在我的电脑上。

我想把这些数据发布到网上,使用postgres数据库;不过,我需要找到或实现一个统计工具,能够处理一个大的postgres表,并在合理的时间内返回统计结果。我对网页上的python不太熟悉,但在网页方面我对PHP很在行,而在离线方面我对python比较熟悉。

用户应该能够创建自己的直方图和数据分析。例如,一个用户可以搜索所有在第x周到第y周之间发货的蓝色物品,而另一个用户可以按小时对所有物品的重量分布进行排序,覆盖整整一年。

我在考虑自己创建和索引统计工具,或者以某种方式自动化这个过程,以模拟大部分查询。但这样似乎效率不高。

我期待听到你们的想法。

谢谢!

1 个回答

1

我觉得如果用户数量不太多的话,你可以充分利用你现在的组合(python/numpy/matplotlib)。我做过类似的工作,我的数据量稍微超过10GB。数据存储在几个sqlite文件里,我用numpy来分析数据,用PIL/matplotlib来生成图表文件(比如png和gif),用cherrypy作为网络服务器,mako作为模板语言。

如果你需要更多的服务器/客户端数据库,那么你可以换成postgresql,但如果你继续使用像cherrypy这样的python网络框架,你仍然可以完全使用你现在的程序。

撰写回答