如何将数据从时间戳修改为每个用户每天的消耗量?

2024-06-16 12:58:04 发布

您现在位置:Python中文网/ 问答频道 /正文

为了获得经济学学士学位,我需要分析能源消耗的数据。然而,我得到了一些以某种格式传递的数据集,我很难修改这些数据,使其对我有用,并能够用Stata分析它

我在Python和SQL方面有一些基本的技能,但是到目前为止,我的论文的最后一个数据集还没有成功。我将非常感谢您的帮助:)

问题是: 我得到了一个有3列2300万行的数据集。这3列分别是时间戳、用户(大约130个用户)和消耗(瓦特每秒)

Example of data set in Access

在第一个例子中,您可以看到一些用户有负消费

这些用户与我的研究无关,所有具有负消费值的用户都可以删除。我怎样才能轻松地做到这一点

在第二个例子中,给出了原始数据集。时间戳基于10-15秒左右的间隔,并且是连续的。因此,测量1458185209是在使用时间戳1458185109进行测量之后的10-15秒。这些时间戳是匿名生成的。然而,我知道确切的开始和结束时间和测量日期

根据这些信息,我想计算每个用户每天的平均消耗量(单位:千瓦/小时)。假设数据集中每个用户有30万个测量点。测量总时间为2个月。因此,用户的平均消费量可以通过取从时间戳1到时间戳4918(300.000/61天)的平均值来计算

我想在给定的时间段内对所有用户执行此操作

我有一些Acces、Python和MySQL的基础知识。然而,我试过的所有计算机都有2300万行的访问问题。在Access中,我不能“玩”它,因为每次迭代都要花半个小时。也许可以选择编写python脚本

如前所述,我是经济学专业的学生,而不是数据科学专业的学生,所以我真的希望你能帮助我克服这个问题。我愿意接受任何建议!我尽量详细地描述问题,如果有不清楚的地方请告诉我:)

非常感谢


Tags: 数据用户sqlaccess专业格式技能时间
1条回答
网友
1楼 · 发布于 2024-06-16 12:58:04

你的数据集上有没有定义索引?在user和timestamp上建立索引,user和timestamp都可以极大地提高某些查询的性能

在处理大量数据时,最好将尽可能多的计算抵消到数据库中,并且只将已经处理过的内容拉到Python中进行进一步分析

相关问题 更多 >