我有一个在某些列中包含分类值的数据集(一行可能包含多个分类,用,
分隔)。示例:
user hashtags
0 u1 a,b
1 u2 a,c
2 u3 c
我想为这些类别创建虚拟列。我对在数据集中很少出现的类别也不感兴趣。目前,我正在生成虚拟列,然后删除出现次数很少的列,如下(chunk
是原始数据帧):
dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)
# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)
请注意,我还添加了一个列,表示出现次数较少的类别数。你知道吗
这种方法有效,但速度很慢。关于如何改进它,我的想法是首先获取所有唯一的类别及其计数,然后删除计数较低的类别,然后生成虚拟列。你知道吗
我想问你:这种方法真的能改善什么吗?如何实施?(np.unique
和return_counts=True
在脑海中浮现)。还有,有没有更好的方法来解决这个问题?你知道吗
(注意:数据集已经是SparseDataFrame
)。你知道吗
使用
numpy
和布尔切片可以加快速度。。让我知道这是否适合你。你知道吗相关问题 更多 >
编程相关推荐