Python的pandas对DatetimeIndex的星期索引返回错误

3 投票

1 回答

1003 浏览

提问于 2025-04-18 17:56

我想处理时间序列数据，计算每个工作日（星期一、星期二等）的平均行数。我的数据大概是这样的：

timestamp       maxCapacity
Mon Aug  4 14:47:00 EDT 2014    6741
Mon Aug  4 14:48:01 EDT 2014    6741

为了实现这个目标，我首先根据时间戳给数据框（dataframe）建立索引。接着，我通过从时间戳索引中提取星期几来创建一个新列。但是，这个新列没有正确地分配星期几的数字。

下面是导致这个问题的代码。

import wget, pandas, csv
from dateutil import parser
url = 'https://www.dropbox.com/s/kbti3i8uzy82hw6/maxCapacity?dl=1'
dataFile = 'maxCapacitySample'
if not os.path.exists(dataFile):
    wget.download(url, out=dataFile)

parse = lambda x: parser.parse(x)

tdata = pandas.read_csv(dataFile,
                        parse_dates={"Datetime":['timestamp',]},
                        index_col='Datetime',
                        keep_date_col=False,
                        date_parser=parse,
                        dialect=csv.excel_tab)

tdata['weekday'] = tdata.index.weekday
print tdata.head()

输出结果

                       maxCapacity  weekday
Datetime
2014-08-04 14:40:00-04:00         6741        0
2014-08-04 14:47:00-04:00         6741        3
2014-08-04 14:48:01-04:00         6741        3
2014-08-04 14:49:00-04:00         6741        3
2014-08-04 14:50:00-04:00         6741        3

这里的问题是同一天（4号）被错误地映射到了星期几的0和3。请问我哪里做错了？

数据处理数据框时间序列星期几日期时间索引工作日平均错误映射

1 个回答

我找到了一种解决方法，具体代码如下：

tdata['weekday'] = pandas.to_datetime(tdata.index.values).weekday

得到的结果是这样的一个数据表：

                           maxCapacity  weekday
Datetime
2014-08-04 14:40:00-04:00         6741        0
2014-08-04 14:47:00-04:00         6741        0
2014-08-04 14:48:01-04:00         6741        0
2014-08-04 14:49:00-04:00         6741        0
2014-08-04 14:50:00-04:00         6741        0
2014-08-04 14:51:00-04:00         6741        0
2014-08-04 14:52:00-04:00         6741        0
2014-08-04 14:53:00-04:00         6741        0
2014-08-04 14:54:00-04:00         6741        0
2014-08-04 14:55:00-04:00         6741        0
...                                ...      ...
2014-08-20 09:37:00-04:00         6652        2
2014-08-20 09:38:00-04:00         6654        2
2014-08-20 09:39:00-04:00         6651        2
2014-08-20 09:40:00-04:00         6642        2
2014-08-20 09:41:00-04:00         6648        2
2014-08-20 09:42:00-04:00         6654        2
2014-08-20 09:43:00-04:00         6646        2
2014-08-20 09:44:00-04:00         6659        2
2014-08-20 09:45:00-04:00         6650        2
2014-08-20 09:46:00-04:00         6655        2

[6589 rows x 2 columns]

回答于 2025-04-18 由 Python大师

分享举报

Python的pandas对DatetimeIndex的星期索引返回错误

1 个回答

撰写回答