如何迭代pandas中的列标题

genrev1= df.query('action == True')['revenue_adj'].mean() genrev2 = df.query('adventure == True')['revenue_adj'].mean() genrev3 = df.query('animation == True')['revenue_adj'].mean() genrev4 = df.query('comedy == True')['revenue_adj'].mean() genrev5 = df.query('crime == True')['revenue_adj'].mean() genrev6 = df.query('documentary == True')['revenue_adj'].mean() genrev7 = df.query('drama == True')['revenue_adj'].mean() genrev8 = df.query('family == True')['revenue_adj'].mean()

3条回答

网友

1楼 · 编辑于 2024-05-15 21:46:36

欢迎来到stackoverflow！在

我不认为有必要对列进行循环。循环通常是处理pandas数据帧的低效方法，如果可能，应该避免使用。考虑到这一点，我将提出一个不同的解决方案。如果你真的需要遍历这些列，那就道歉。如果你在你的问题中多提供一点关于你为什么选择你的方法的背景。。。你已经看过了，为什么没用。。。它通常有助于引导人们更好地给你更相关的答案。在

下面是我该怎么做。。。没有循环。在

import pandas as pd
import numpy as np

# mimick something similar to your data
arr = [
    [1.2, True, False, True],
    [2.3, False, True, True],
    [3.4, True, True, False]
]
genres = ['action', 'adventure', 'comedy']
df = pd.DataFrame(arr, columns=['rev'] + genres)

# perform your task
result = df.loc[:, genres]            # take just the genre columns
result = result.astype('int')         # convert boolean to int
result[result == 0] = np.nan          # convert 0's to nulls so they're excluded from the avg
result = result.mul(df.rev, axis=0)   # multiply by your 'rev' column
result = result.mean(axis=0)          # calc mean for all genres simultaneously

result
# action       2.30
# adventure    2.85
# comedy       1.75

网友

2楼 · 编辑于 2024-05-15 21:46:36

您试图在字符串中使用变量gen，但不能这样做。在

一种解决方法是将行更改为：

genrev.append(df.query(f'{gen} == True')['revenue_adj'].mean())

假设您使用的是python3.6或更高版本。旧版本可以：

genrev.append(df.query('%s == True' % gen)['revenue_adj'].mean())

也可以直接迭代列，而不是手动构建列表：

for col in df.columns:
...

网友

3楼 · 编辑于 2024-05-15 21:46:36

你可以试试这样的方法：

df = pd.DataFrame({'Revenue':np.arange(100,1001,100),
                   'action':np.random.choice([True, False],10),
                   'comedy':np.random.choice([True, False],10),
                   'drama':np.random.choice([True, False],10)})

df.iloc[:,1:].apply(lambda x: pd.Series(df.loc[x,'Revenue'])).mean()

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章