不同版本cod的平均归一化

2024-04-20 08:03:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我想说的是规范化我的数据帧,当我实现代码的第一个版本时,我得到的是规范化的值,但是当我实现版本2时,我得到的是一个名为stop iteration的错误。["1B","2B","3B","HR","BB"]是我的数据帧中的列。你知道吗

第1版:

def meanNormalizeRates(df):
        subRates = df[["1B","2B","3B","HR","BB"]]
        df[["1B","2B","3B","HR","BB"]] = subRates - subRates.mean(axis=0)
        return df

stats = stats.groupby('yearID').apply(meanNormalizeRates)
stats.head()

第2版:

 def mean(df):
    for val in ["1B","2B","3B","HR","BB"]:
          stats[val] = stats[val] -stats[val].mean(axis=0)

stats = stats.groupby('yearID').apply(mean)

stats.head()

我无法理解这两个版本之间的区别。你知道吗

一个很好的例子

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9],
'gate' : [9, 7, 4,6, 9]}

frame = pd.DataFrame(data)
frame.head()

版本1.1

def std(df):
    temp = df[['gate', 'pop']]
    df[['gate', 'pop']] = temp - temp.mean(axis=0)
    return df
frame.groupby('year').apply(std)

    gate    pop state   year
0   9   1.5 Ohio    2000
1   7   1.7 Ohio    2001
2   4   3.6 Ohio    2002
3   6   2.4 Nevada  2001
4   9   2.9 Nevada  2002

版本1.2

def mean(df):
    for val in ['gate', 'pop']:
        df[val] = df[val]- df[val].mean(axis=0)

frame.groupby('year').apply(mean)

error: stop iteration

Tags: 版本dfdefstatshrvalmeanpop
1条回答
网友
1楼 · 发布于 2024-04-20 08:03:02

好的,因为在mean()函数中没有return语句(在示例1.2中),所以该函数只为每个组返回None。你得到的StopIteration错误并不是很清楚,但是发生的是:

  • apply()对每个组调用mean()函数。你知道吗
  • 每个调用都返回None。你知道吗
  • 结果被放到一个列表中,所以这里是一个所有结果的列表 None
  • 作为将结果缝合在一起的一部分, apply()尝试在列表中查找非None值, 引发StopIteration异常。你知道吗

所以基本上你可以通过以下步骤来重现错误:

eg_list = [None, None, None]
v = next(v for v in eg_list if v is not None)
                                     -
StopIteration                             Traceback (most recent call last)
<ipython-input-12-93b31b7a51e4> in <module>()
  > 1 v = next(v for v in eg_list if v is not None)

所有这些都可能是太多的细节虽然-外卖是,当你 使用apply(),您不应该在 你正在应用的函数-你应该从函数返回一个结果 并将它们分配回数据帧,如:

# The lambda here will return the relevant values of gate and pop,
# and we just assign them wherever we want in the dataframe.
# Could be new columns, could be existing ones
frame[['gate', 'pop']] = frame.groupby('year')[['gate', 'pop']].apply(
    lambda group: group - group.mean(axis=0))

相关问题 更多 >