如何有效地将字典中的数据添加到数据帧？

for company in Company.instances: for resource in company.resources: for product in resource["product"]: my_dictionary = my_function("with varying args per company/product") # Remove None values from my_dictionary my_dictionary = {k: v for k, v in my_dictionary.copy().items() if v is not None} # TODO speed this up if len(my_dictionary) > 0: df = Company.products[product]["current"] for subproduct, value in my_dictionary.items(): df.loc[ (df["product"] == product) & (df["subproduct"] == subproduct), company.name ] = value

""" if my_function returns this dict for company1: {'1': 'alpha', '2': 'bravo', '3': 'charlie'} desired: product subproduct company1 company2 0 a 1 alpha 1 a 2 bravo 2 a 3 charlie 3 a 4 4 a 5 followed by this dict also for company1: {'1': 'november', '5': 'echo'} desired: product subproduct company1 company2 0 a 1 november 1 a 2 bravo 2 a 3 charlie 3 a 4 4 a 5 echo and this dict for company2: {'4': 'kilo', '2': 'foxtrot'} desired: product subproduct company1 company2 0 a 1 november 1 a 2 bravo foxtrot 2 a 3 charlie 3 a 4 kilo 4 a 5 echo """

1条回答

网友

1楼 · 发布于 2024-05-19 00:22:12

我的解决方案基于使用update高效地更新选择（例如公司1）。你知道吗

但是要使用update，应该有一个序列，其键等于特定的键（索引值）在df中，而您的所有词典的键都相等到子产品值，对于特定的产品。你知道吗

因此，成功的关键是“翻译”：

从产品/子产品值
索引值。你知道吗

要有效地执行此操作，请从为df创建反向索引开始：

revInd = df.reset_index().set_index(['product', 'subproduct'])['index']

这样做的目的是让产品/子产品配对，您可以快速获取df中相关行的索引（执行测向位置[…]要慢得多）。你知道吗

要检查它是如何工作的，运行revInd[('a', '1')]，您将得到0- 包含product=='a'和subproduct='1'的行的索引（我假设这两列都是string类型）。你知道吗

然后定义更新函数：

def updCol(df, revInd, prodName, colName, dct):
    upd = pd.Series({ revInd[(prodName, k)]: v for k, v in dct.items() })
    df[colName].update(upd)

参数：

df-要更新的数据帧。你知道吗
revInd-反向索引。你知道吗
prodName—产品名称（选择标准的一部分）。你知道吗
colName-要更新的列名。你知道吗
dct-源字典。你知道吗

此函数根据字典理解生成upd系列，从产品/子产品对执行转码（来自字典键的子管道），到df中相关行的索引。值不会更改。你知道吗

然后，基于upd，更新df中的相关列。此更新发生在适当的位置，因此不需要返回任何结果。你知道吗

要检查我的解决方案，请创建“更新”词典：

d1 = {'1': 'alpha', '2': 'bravo', '3': 'charlie'}
d2 = {'1': 'november', '5': 'echo'}
d3 = {'4': 'kilo', '2': 'foxtrot'}

（d1和d2对于公司1和d3对于公司2）。你知道吗

然后运行：

updCol(df, revInd, 'a', 'company1', d1)
updCol(df, revInd, 'a', 'company1', d2)
updCol(df, revInd, 'a', 'company2', d3)

如果您打印df，您将得到：

  product subproduct  company1 company2
0       a          1  november         
1       a          2     bravo  foxtrot
2       a          3   charlie         
3       a          4               kilo
4       a          5      echo

就像它应该的那样。你知道吗

出于演示目的，请在第一次和第二次打印后运行打印（df） 调用updCol。你知道吗

当然，我无法复制你应该做的全部任务。我只演示了如何在示例数据上使用上述函数。你知道吗

所以现在您的任务是将我的解决方案合并到您的代码中。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章