在这个例子中,如何避免使用iterrows?
我之前讨论过iterrows的性能问题,得到了很好的反馈。现在我想请大家帮我解决一个具体的情况,因为iterrows实在是太慢了。
我觉得这个问题对任何刚接触python和pandas的新手都很有帮助,特别是那些习惯用行迭代思考的人。
我看到的使用'map'或'apply'的例子通常只展示一个数据表,看起来还挺直观的。但是,我现在要处理的是两个大表(表1有250万行,表2有96000行)。
这里有一个简单的例子(在我的环境中可以运行):
import pandas as pd
import numpy as np
# Create the original tables
t1 = {'letter':['a','b'],
'number1':[50,-10]}
t2 = {'letter':['a','a','b','b'],
'number2':[0.2,0.5,0.1,0.4]}
table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)
# Create the body of the new table
table3 = pd.DataFrame(np.nan, columns=['letter','number2'], index=[0])
# Iterate through filtering relevant data, optimizing, returning info
for row_index, row in table1.iterrows():
t2info = table2[table2.letter == row['letter']].reset_index()
table3.ix[row_index,] = optimize(t2info,row['number1'])
# Define optimization
def optimize(t2info, t1info):
calculation = []
for index, r in t2info.iterrows():
calculation.append(r['number2']*t1info)
maxrow = calculation.index(max(calculation))
return t2info.ix[maxrow]
print table3
输出结果是:
letter number2
0 a 0.5
1 b 0.1
[2 rows x 2 columns]
大致思路:
- 我们的目标是生成表3,它的尺寸和表1是一样的。
- 根据表1中的输入,从表2中选出“最佳”的行来填充表3。
- 从表2中使用的数据是基于表1中的“字母”的一个子集。
(显然这个例子不慢,因为数据量小,但当处理数百万行时就会很慢。请注意,在实际例子中,我的两个表都有更多的列。)
2 个回答
0
正如我在另一个回答中提到的,有时候问题并不在于循环,而是在于不必要地把数据放进DataFrame或Series里。
def iterthrough():
ret = []
grouped = table2.groupby('letter', sort=False)
t2info = table2.to_records()
for index, letter, n1 in table1.to_records():
t2 = t2info[grouped.groups[letter].values]
maxrow = np.multiply(t2.number2, n1).argmax()
# `[1:]` removes the index column
ret.append(t2[maxrow].tolist()[1:])
return pd.DataFrame(ret, columns=('letter', 'number2'))
改进的方法包括:
- 使用
groupby
和groups
索引,避免重复的布尔计算。 - 使用
to_records
,避免在Series
和记录之间来回转换。 - 在收集到所有数据之前,不要创建DataFrame。
3
在我看来,最简单的方法就是先根据letter
合并数据,然后再进行groupby
操作。
import pandas as pd
import numpy as np
# Create the original tables
t1 = {'letter':['a','b'],
'number1':[50,-10]}
t2 = {'letter':['a','a','b','b'],
'number2':[0.2,0.5,0.1,0.4]}
table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)
table3 = table1.merge(table2,on='letter')
grouped = table3.groupby('letter')
def get_optimization(df):
product_column = df.number1 * df.number2
idx_of_prod_col_max = product_columns.idxmax()
return_val = df.ix[idx_of_prod_col_max]['number2']
return return_val
table3 = grouped.apply(get_optimization)