Pandas时间序列与缺失数据/记录的比较

import pandas as pd from io import StringIO data = StringIO("""\ 1, 2001-01-01, 00:00, 1.0, 0.5, 1.0 1, 2001-01-01, 01:00, 1.1, 0.6, 2.0 1, 2001-01-01, 02:00, 1.2, 0.7, 3.0 1, 2001-01-01, 03:00, 1.3, 0.8, 4.0 2, 2001-01-01, 00:00, 2.0, -99, -99 2, 2001-01-01, 01:00, -99, 1.6, 2.0 2, 2001-01-01, 02:00, 2.2, 1.7, 3.0 2, 2001-01-01, 03:00, 2.3, 1.8, 4.0 3, 2001-01-01, 00:00, 3.0, 2.5, 1.0 3, 2001-01-01, 01:00, 3.1, 2.6, -99 3, 2001-01-01, 02:00, -99, -99, 3.0 3, 2001-01-01, 03:00, 3.3, 2.8, 4.0 3, 2001-01-01, 04:00, 3.4, 2.9, 5.0 """) columns = ['id','date','time','T','Td','cc'] df = pd.read_table(data, header=None, names=columns, delimiter=',', na_values=-99, parse_dates=[['date','time']])

1条回答

网友

1楼 · 发布于 2024-06-16 14:59:04

一种可行的方法（基于此：https://stackoverflow.com/a/34985243/3581217答案）是创建一个Dataframe，其中来自不同站点的观测值具有不同的列，然后使用subset设置为所有列或我要比较的两个站点，这将删除丢失数据的所有行。在

import pandas as pd
import numpy as np
from io import StringIO

data1 = StringIO("""\
  1,  2001-01-01, 00:00, 1.0
  1,  2001-01-01, 01:00, 1.1
  1,  2001-01-01, 02:00, 1.2
  1,  2001-01-01, 03:00, 1.3
""")

data2 = StringIO("""\
  2,  2001-01-01, 00:00, 2.0
  2,  2001-01-01, 01:00, -99
  2,  2001-01-01, 02:00, 2.2
  2,  2001-01-01, 03:00, 2.3
""")

data3 = StringIO("""\
  3,  2001-01-01, 00:00, 3.0
  3,  2001-01-01, 01:00, 3.1
  3,  2001-01-01, 02:00, -99
  3,  2001-01-01, 03:00, 3.3
  3,  2001-01-01, 04:00, 3.4
""")

columns = ['id','date','time','T1']
df1 = pd.read_table(data1, header=None, names=columns, delimiter=',', na_values=-99, parse_dates=[['date','time']])
columns = ['id','date','time','T2']
df2 = pd.read_table(data2, header=None, names=columns, delimiter=',', na_values=-99, parse_dates=[['date','time']])
columns = ['id','date','time','T3']
df3 = pd.read_table(data3, header=None, names=columns, delimiter=',', na_values=-99, parse_dates=[['date','time']])

df = pd.concat([df1,df2,df3]).groupby('date_time').max()
df = df.dropna(subset=['T1','T2','T3'])

得到的Dataframe看起来像：

^{pr2}$

如果我只想比较两个站点，在本例中忽略T3，那么df.dropna(subset=['T1','T2'])会导致：

In [234]: df
Out[234]: 
                      T1   T2   T3  id
date_time                             
2001-01-01 00:00:00  1.0  2.0  3.0   3
2001-01-01 02:00:00  1.2  2.2  NaN   3
2001-01-01 03:00:00  1.3  2.3  3.3   3

这是走这条路吗？还是觉得有点不像熊猫。。？在

相关问题更多 >

编程相关推荐

热门问题

热门文章