我想基于两个现有列的值向现有的dask数据帧添加一个新列,并涉及用于检查空值的条件语句:
数据帧定义
import pandas as pd
import dask.dataframe as dd
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, "", 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df1, npartitions=2)
方法1已尝试
def funcUpdate(row):
if row['y'].isnull():
return row['y']
else:
return round((1 + row['x'])/(1+ 1/row['y']),4)
ddf = ddf.assign(z= ddf.apply(funcUpdate, axis=1 , meta = ddf))
它给出一个错误:
TypeError: Column assignment doesn't support type DataFrame
方法-2
ddf = ddf.assign(z = ddf.apply(lambda col: col.y if col.y.isnull() else round((1 + col.x)/(1+ 1/col.y),4),axis = 1, meta = ddf))
知道怎么做吗?
您可以使用
fillna
(快速),也可以使用apply
(缓慢但灵活)菲尔纳
当然,在这种情况下,因为您的函数使用
y
,如果y
为空,那么结果也将为空。我假设你不是故意的,所以我稍微改变了输出。使用apply
任何熊猫专家都会告诉你,使用
apply
会带来10倍到100倍的减速惩罚。请小心。也就是说,灵活性是有用的。您的示例几乎可以工作,只是您提供了不正确的元数据。您告诉apply函数生成一个数据帧,而实际上我认为您的函数是要生成一个序列的。您可以让Dask为您猜测元信息(尽管它会抱怨),也可以显式指定数据类型。两个选项都显示在下面的示例中:
我对dask没有任何经验,但是您的布尔测试不会在funcUpdate中将第二个元素捕获为空。pandas的空值等于None或NaN/NaN,而不是“”。
是一种可能的解决方法,但您需要在手动操作之前运行数据验证。
相关问题 更多 >
编程相关推荐