dask和pandas数据帧中apply的不兼容性

triggers Total Traffic UDP DNS 9380 [ICMP, IP null, IP Private, TCP null, TCP SYN,... 1 1 1 9388 [ICMP, IP null, IP Private, TCP null, TCP SYN,... 1 1 1 19714 [ICMP, IP null, IP Private, UDP, NTP Amplifica... 1 1 1 21556 [IP null] 1 1 1 21557 [IP null] 1 1 1

triggers = [['Total Traffic', 'DNS', 'UDP'],['TCP RST'],['Total Traffic'],['IP Private'],['ICMP']]*10 df2 = dd.from_pandas(pd.DataFrame({'triggers':triggers}), npartitions=16) pop_triggers= ['Total Traffic', 'UDP', 'DNS', 'TCP SYN', 'TCP null', 'ICMP'] for trig in pop_triggers: df2[trig] = df2.triggers.apply(lambda x: 1 if trig in x else 0) df2.head()

triggers Total Traffic UDP DNS TCP SYN TCP null ICMP 0 [Total Traffic, DNS, UDP] 0 0 0 0 0 0 1 [TCP RST] 0 0 0 0 0 0 2 [Total Traffic] 0 0 0 0 0 0 3 [IP Private] 0 0 0 0 0 0

1条回答

网友

1楼 · 发布于 2024-04-25 15:26:14

根据我的经验，apply中的dask与显式^{}一起工作得更好。有一些功能可以让dask尝试猜测metadata，但我发现它速度慢，而且不总是可靠的。另外，指导原则是指定meta。在

我的另一点经验是assign比df[col] = ...工作得更好。我不确定这是一个bug、一个限制还是一个误用（我前一段时间研究过了，我不认为这是一个bug）。在

编辑：第一个模式不起作用，循环中用于前几列的trig值似乎被更新了，因此在计算时，这只给出所有列的最后一个值的结果！在

这不是一个bug，而是没有立即计算的组合，而lambda结果是延迟计算对闭包的尚未计算。请参见this discussion了解它为什么不起作用。在

~~我的模式是：~~

cols = {}
for trig in pop_triggers:
    meta = (trig, int)
    cols[trig] = df.triggers.apply(lambda x: 1 if trig in x else 0, meta=meta)
df = df.assign(**cols)

正确模式：

（抱歉，之前没有测试，因为我运行的是相同的模式，除了我没有在应用的函数中使用循环值，所以没有面对这种行为）

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章