使用pandas解析日期、时间和纳秒为datetime对象

2 投票

2 回答

10521 浏览

提问于 2025-04-17 22:18

我有一些ASCII文件，里面的时间戳格式有点奇怪：

DATAH   DATE    TIME    SECONDS NANOSECONDS D
DATA    2012-06-04  23:49:15    1338853755  700000000   0.00855577
DATA    2012-06-04  23:49:15    1338853755  800000000   0.00805482
DATA    2012-06-04  23:49:15    1338853755  900000000   -0.00537284
DATA    2012-06-04  23:49:16    1338853756  0   -0.0239447

基本上，这个时间戳分成了四列 - 日期（DATE）、时间（TIME）、秒（SECONDS）和纳秒（NANOSECONDS）。我想把这个文件读成一个pandas的DataFrame，并把日期、时间和纳秒作为datetime对象来用，这样可以作为索引：

import datetime as dt
import pandas as pd

parse = lambda x: dt.datetime.strptime(x, '%Y-%m-%d %H:%M:%S %f')

df = pd.read_csv('data.txt', sep='\t', parse_dates=[['DATE', 'TIME', 'NANOSECONDS']], index_col=0, date_parser=parse)

但是这样做会失败，因为纳秒的值有9位数字，而%f格式只需要6位。如果我手动把纳秒列里的多出的3个零去掉，上面的代码就能正常工作了。你能告诉我怎么把这个示例文件读成一个pandas的DataFrame对象，并用日期、时间和纳秒列作为索引吗？

[更新] 使用%f000，正如behzad.nouri建议的那样，如果纳秒列里没有0值的话，这样做是有效的。所以，显然这就是现在导致问题的原因。

数据处理时间戳索引日期解析 pandas库格式化问题纳秒 datetime对象

2 个回答

尝试一下：

parse = lambda x: dt.datetime.strptime(x + '0'*(29 - len(x)), '%Y-%m-%d %H:%M:%S %f000')

我觉得这样做：

def parse(t):
    import re
    t = re.sub('([0-9]*)$', lambda m: '0'*(9 - len(m.group(1))) + m.group(1), t)
    return dt.datetime.strptime(t[:-3], '%Y-%m-%d %H:%M:%S %f')

更安全，因为它在数字前面加了零；基本上是确保纳秒的值有9位数字，然后再去掉最后的3位。

回答于 2025-04-17 由 Python大师

分享举报

这样做会比使用 read_csv 的日期解析器来进行转换快得多。

In [6]: data = """DATAH   DATE    TIME    SECONDS NANOSECONDS D
   ...: DATA    2012-06-04  23:49:15    1338853755  700000000   0.00855577
   ...: DATA    2012-06-04  23:49:15    1338853755  800000000   0.00805482
   ...: DATA    2012-06-04  23:49:15    1338853755  900000000   -0.00537284
   ...: DATA    2012-06-04  23:49:16    1338853756  0   -0.0239447"""

In [7]: df = read_csv(StringIO(data),sep='\s+')

In [8]: df
Out[8]: 
  DATAH        DATE      TIME     SECONDS  NANOSECONDS         D
0  DATA  2012-06-04  23:49:15  1338853755    700000000  0.008556
1  DATA  2012-06-04  23:49:15  1338853755    800000000  0.008055
2  DATA  2012-06-04  23:49:15  1338853755    900000000 -0.005373
3  DATA  2012-06-04  23:49:16  1338853756            0 -0.023945

[4 rows x 6 columns]

In [9]: df.dtypes
Out[9]: 
DATAH           object
DATE            object
TIME            object
SECONDS          int64
NANOSECONDS      int64
D              float64
dtype: object

In [13]: pd.to_datetime(df['SECONDS']+df['NANOSECONDS'].astype(float)/1e9, unit='s')
Out[13]: 
0   2012-06-04 23:49:15.700000
1   2012-06-04 23:49:15.800000
2   2012-06-04 23:49:15.900000
3          2012-06-04 23:49:16
dtype: datetime64[ns]

回答于 2025-04-17 由 Python大师

分享举报

使用pandas解析日期、时间和纳秒为datetime对象

2 个回答

撰写回答