我有一个pd.DataFrame,看起来像:
我想在值上创建一个截断,将它们推入二进制数字,在本例中,我的截断是0.85
。我希望生成的数据帧看起来像:
我编写的脚本很容易理解,但是对于大型数据集来说效率很低。我相信熊猫有办法处理这些类型的转变。
是否有人知道使用阈值将浮点数列转换为整数列的有效方法?
我做这种事的方式非常天真:
DF_test = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0.12,0.23,0.93,0.86,0.33]]).T,columns=["c1","c2","value"])
DF_want = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0,0,1,1,0]]).T,columns=["c1","c2","value"])
threshold = 0.85
#Empty dataframe to append rows
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
#Get first 2 columns
first2cols = list(DF_test.ix[i][:-1])
#Check if value is greater than threshold
binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
#Create series object
SR_row = pd.Series( first2cols + binary_value,name=i)
#Add to empty dataframe container
DF_naive = DF_naive.append(SR_row)
#Relabel columns
DF_naive.columns = DF_test.columns
DF_naive.head()
#the sample DF_want
可以使用
np.where
根据布尔条件设置所需的值:请注意,由于您的数据是一个异类np数组,“value”列包含字符串而不是浮点数:
所以您需要首先将
dtype
转换为float
您可以比较计时:
np.where
版本的速度快了100倍,诚然,您的代码做了很多不必要的事情,但是您明白了由于^{} is a subclass of ^{} ,即
True == 1
和False == 0
,您可以将布尔序列转换为其整数形式:通常,包括大多数在计算或索引中的使用,不需要
int
转换,您可能希望完全放弃它。相关问题 更多 >
编程相关推荐