在Pandas身上研究枣子

2024-04-18 02:18:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经收集了几天的Twitter数据,除此之外,我还需要分析内容是如何传播的。当用户对内容感兴趣时,我创建了一个时间戳列表,并将twitter时间戳导入pandas df中,列名为“timestamps”。看起来像这样:

0     Sat Dec 14 05:13:28 +0000 2013
1     Sat Dec 14 05:21:12 +0000 2013
2     Sat Dec 14 05:23:10 +0000 2013
3     Sat Dec 14 05:27:54 +0000 2013
4     Sat Dec 14 05:37:43 +0000 2013
5     Sat Dec 14 05:39:38 +0000 2013
6     Sat Dec 14 05:41:39 +0000 2013
7     Sat Dec 14 05:43:46 +0000 2013
8     Sat Dec 14 05:44:50 +0000 2013
9     Sat Dec 14 05:47:33 +0000 2013
10    Sat Dec 14 05:49:29 +0000 2013
11    Sat Dec 14 05:55:03 +0000 2013
12    Sat Dec 14 05:59:09 +0000 2013
13    Sat Dec 14 05:59:45 +0000 2013
14    Sat Dec 14 06:17:19 +0000 2013

等等,我想做的是每10分钟抽样一次,然后统计每个时间段内有多少用户对内容感兴趣。我的问题是我不知道如何处理从Twitter导入的时间戳。我应该使用正则表达式还是有更好的方法?如果有人能提供一些建议,我将不胜感激。谢谢!在


Tags: 数据方法用户内容pandasdf列表时间
1条回答
网友
1楼 · 发布于 2024-04-18 02:18:09

这是ISO日期格式,可以用pd.to_datetime轻松转换为datetime:

>>> df[:2]
                        timestamp
0  Sat Dec 14 05:13:28 +0000 2013
1  Sat Dec 14 05:21:12 +0000 2013

>>> df['timestamp'] = pd.to_datetime(df['timestamp'])
>>> df[:2]
              timestamp
0   2013-12-14 05:13:28
1   2013-12-14 05:21:12

要重新采样,可以将其设为索引,然后使用resample

^{pr2}$

相关问题 更多 >