Python Pandas 从时间序列中提取唯一日期
我有一个数据表(DataFrame),里面包含了很多日内数据,这个数据表有好几天的数据,但日期并不是连续的。
2012-10-08 07:12:22 0.0 0 0 2315.6 0 0.0 0
2012-10-08 09:14:00 2306.4 20 326586240 2306.4 472 2306.8 4
2012-10-08 09:15:00 2306.8 34 249805440 2306.8 361 2308.0 26
2012-10-08 09:15:01 2308.0 1 53309040 2307.4 77 2308.6 9
2012-10-08 09:15:01.500000 2308.2 1 124630140 2307.0 180 2308.4 1
2012-10-08 09:15:02 2307.0 5 85846260 2308.2 124 2308.0 9
2012-10-08 09:15:02.500000 2307.0 3 128073540 2307.0 185 2307.6 11
......
2012-10-10 07:19:30 0.0 0 0 2276.6 0 0.0 0
2012-10-10 09:14:00 2283.2 80 98634240 2283.2 144 2283.4 1
2012-10-10 09:15:00 2285.2 18 126814260 2285.2 185 2285.6 3
2012-10-10 09:15:01 2285.8 6 98719560 2286.8 144 2287.0 25
2012-10-10 09:15:01.500000 2287.0 36 144759420 2288.8 211 2289.0 4
2012-10-10 09:15:02 2287.4 6 109829280 2287.4 160 2288.6 5
......
我该怎么从这个数据表中提取出独特的日期,并把它们转换成日期时间格式呢?我想要的结果是像 [2012-10-08, 2012-10-10]
这样的。
4 个回答
2
使用正则表达式:
(\d{4}-\d{2}-\d{2})
用 re.findall
函数来运行它,这样可以找到所有匹配的内容:
result = re.findall(r"(\d{4}-\d{2}-\d{2})", subject)
4
为了给@DSM一个不同的回答,可以看看这个其他的回答,是@Psidom写的。
大概是这样的:
pd.to_datetime(df['DateTime']).dt.date.unique()
我觉得这个方法的效果稍微好一点。
51
如果你有一个叫做 Series
的东西,比如:
In [116]: df["Date"]
Out[116]:
0 2012-10-08 07:12:22
1 2012-10-08 09:14:00
2 2012-10-08 09:15:00
3 2012-10-08 09:15:01
4 2012-10-08 09:15:01.500000
5 2012-10-08 09:15:02
6 2012-10-08 09:15:02.500000
7 2012-10-10 07:19:30
8 2012-10-10 09:14:00
9 2012-10-10 09:15:00
10 2012-10-10 09:15:01
11 2012-10-10 09:15:01.500000
12 2012-10-10 09:15:02
Name: Date
其中每个对象都是一个 Timestamp
(时间戳):
In [117]: df["Date"][0]
Out[117]: <Timestamp: 2012-10-08 07:12:22>
你可以通过调用 .date()
来只获取日期:
In [118]: df["Date"][0].date()
Out[118]: datetime.date(2012, 10, 8)
而且 Series
还有一个 .unique()
方法。所以你可以使用 map
和一个 lambda
函数:
In [126]: df["Date"].map(lambda t: t.date()).unique()
Out[126]: array([2012-10-08, 2012-10-10], dtype=object)
或者使用 Timestamp.date
方法:
In [127]: df["Date"].map(pd.Timestamp.date).unique()
Out[127]: array([2012-10-08, 2012-10-10], dtype=object)