在这个例子中，如何避免使用iterrows？

4 投票

2 回答

1716 浏览

数据工程师

提问于 2025-04-18 14:10

我之前讨论过iterrows的性能问题，得到了很好的反馈。现在我想请大家帮我解决一个具体的情况，因为iterrows实在是太慢了。

我觉得这个问题对任何刚接触python和pandas的新手都很有帮助，特别是那些习惯用行迭代思考的人。

我看到的使用'map'或'apply'的例子通常只展示一个数据表，看起来还挺直观的。但是，我现在要处理的是两个大表（表1有250万行，表2有96000行）。

这里有一个简单的例子（在我的环境中可以运行）：

import pandas as pd
import numpy as np

# Create the original tables
t1 = {'letter':['a','b'],
      'number1':[50,-10]}

t2 = {'letter':['a','a','b','b'],
      'number2':[0.2,0.5,0.1,0.4]}

table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)

# Create the body of the new table
table3 = pd.DataFrame(np.nan, columns=['letter','number2'], index=[0])

# Iterate through filtering relevant data, optimizing, returning info
for row_index, row in table1.iterrows():   
    t2info = table2[table2.letter == row['letter']].reset_index()
    table3.ix[row_index,] = optimize(t2info,row['number1'])

# Define optimization
def optimize(t2info, t1info):
    calculation = []
    for index, r in t2info.iterrows():
        calculation.append(r['number2']*t1info)
    maxrow = calculation.index(max(calculation))
    return t2info.ix[maxrow]

print table3

输出结果是：

  letter number2
0      a     0.5
1      b     0.1

[2 rows x 2 columns]

大致思路：

我们的目标是生成表3，它的尺寸和表1是一样的。
根据表1中的输入，从表2中选出“最佳”的行来填充表3。
从表2中使用的数据是基于表1中的“字母”的一个子集。

（显然这个例子不慢，因为数据量小，但当处理数百万行时就会很慢。请注意，在实际例子中，我的两个表都有更多的列。）

性能优化数据处理数据分析 pandas 数据表 map函数 apply函数行迭代

2 个回答

正如我在另一个回答中提到的，有时候问题并不在于循环，而是在于不必要地把数据放进DataFrame或Series里。

def iterthrough():
    ret = []
    grouped = table2.groupby('letter', sort=False)
    t2info = table2.to_records()
    for index, letter, n1 in table1.to_records():
        t2 = t2info[grouped.groups[letter].values]
        maxrow = np.multiply(t2.number2, n1).argmax()
        # `[1:]` removes the index column
        ret.append(t2[maxrow].tolist()[1:])
    return pd.DataFrame(ret, columns=('letter', 'number2'))

改进的方法包括：

使用 groupby 和 groups 索引，避免重复的布尔计算。
使用 to_records，避免在 Series 和记录之间来回转换。
在收集到所有数据之前，不要创建DataFrame。

回答于 2025-04-18 由 Python大师

分享举报

在我看来，最简单的方法就是先根据letter合并数据，然后再进行groupby操作。

import pandas as pd
import numpy as np

# Create the original tables
t1 = {'letter':['a','b'],
      'number1':[50,-10]}

t2 = {'letter':['a','a','b','b'],
      'number2':[0.2,0.5,0.1,0.4]}

table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)

table3 = table1.merge(table2,on='letter')

grouped = table3.groupby('letter')

def get_optimization(df):
    product_column = df.number1 * df.number2
    idx_of_prod_col_max = product_columns.idxmax()
    return_val = df.ix[idx_of_prod_col_max]['number2']
    return return_val

table3 = grouped.apply(get_optimization)

回答于 2025-04-18 由 Python大师

分享举报

在这个例子中，如何避免使用iterrows？

2 个回答

撰写回答