从应用（）返回多个列

df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB') df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, grouping=True) + ' GB') df_test dir size size_kb size_mb size_gb 0 /Users/uname1 994933 971.6 KB 0.9 MB 0.0 GB 1 /Users/uname2 109338711 106,776.1 KB 104.3 MB 0.1 GB [2 rows x 5 columns]

3条回答

网友
1楼 · 编辑于 2024-04-24 22:55:53

使用apply和zip的速度将是串行方式的3倍
def sizes(s): return locale.format("%.1f", s / 1024.0, grouping=True) + ' KB', \ locale.format("%.1f", s / 1024.0 ** 2, grouping=True) + ' MB', \ locale.format("%.1f", s / 1024.0 ** 3, grouping=True) + ' GB' df_test['size_kb'], df_test['size_mb'], df_test['size_gb'] = zip(*df_test['size'].apply(sizes))
测试结果如下：
Separate df.apply(): 100 loops, best of 3: 1.43 ms per loop Return Series: 100 loops, best of 3: 2.61 ms per loop Return tuple: 1000 loops, best of 3: 819 µs per loop

网友
2楼 · 编辑于 2024-04-24 22:55:53

当前的一些回复很好，但我想提供另一个，也许更“泛化”的选项。这适用于我当前的pandas 0.23（不确定它是否适用于以前的版本）：
import pandas as pd df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) def sizes(s): a = locale.format_string("%.1f", s['size'] / 1024.0, grouping=True) + ' KB' b = locale.format_string("%.1f", s['size'] / 1024.0 ** 2, grouping=True) + ' MB' c = locale.format_string("%.1f", s['size'] / 1024.0 ** 3, grouping=True) + ' GB' return a, b, c df_test[['size_kb', 'size_mb', 'size_gb']] = df_test.apply(sizes, axis=1, result_type="expand")
注意，技巧在于apply的result_type参数，该参数将其结果扩展为可直接分配给新/旧列的DataFrame

网友
3楼 · 编辑于 2024-04-24 22:55:53

您可以从应用函数返回包含新数据的序列，从而避免需要迭代三次。将axis=1传递给apply函数将函数sizes应用于数据帧的每一行，返回要添加到新数据帧的序列。此系列s包含新值以及原始数据

def sizes(s):
    s['size_kb'] = locale.format("%.1f", s['size'] / 1024.0, grouping=True) + ' KB'
    s['size_mb'] = locale.format("%.1f", s['size'] / 1024.0 ** 2, grouping=True) + ' MB'
    s['size_gb'] = locale.format("%.1f", s['size'] / 1024.0 ** 3, grouping=True) + ' GB'
    return s

df_test = df_test.append(rows_list)
df_test = df_test.apply(sizes, axis=1)

相关问题更多 >

编程相关推荐

热门问题

热门文章