我有一个DataFrame,我想根据一个查找表填充一个新列。我不能使用map
,因为查找表中的值需要很多索引。在
import pandas as pd
import numpy as np
d = pd.DataFrame({'I': np.random.randint(3, size=5),
'B0': np.random.choice([True, False], 5),
'B1': np.random.choice([True, False], 5)})
哪一个是我的数据(实际上我的数据要大得多):
^{pr2}$然后我的查找表:
l = pd.DataFrame({(True, True): [1.1, 2.2, 3.3],
(True, False): [1.3, 2.1, 3.1],
(False, True): [1.2, 2.1, 3.1],
(False, False): [1.1, 2.0, 5.1]}
)
l.index.name = 'I'
l.columns.names = 'B0', 'B1'
l = l.stack(['B0', 'B1'])
是什么
I B0 B1
0 False False 1.1
True 1.2
True False 1.3
True 1.1
1 False False 2.0
True 2.1
True False 2.1
True 2.2
2 False False 5.1
True 3.1
True False 3.1
True 3.3
所以我想从查询循环表的数据中添加一个列w
,查询值为(I, B0, B1)
。我正在使用应用:
d['w'] = d.apply(lambda x: l[x['I'], x['B0'], x['B1']], axis=1)
它起作用了:
B0 B1 I w
0 True False 0 1.3
1 False False 0 1.1
2 False False 1 2.0
3 True False 1 2.1
4 False True 2 3.1
问题是速度太慢了。如何加快速度?在
这应该更快
使用
^{pr2}$join
时间
小数据
我们可以将
d
与平面合并(应用reset_index()
)l
:相关问题 更多 >
编程相关推荐