在生成虚拟列之前，在数据框中过滤类别

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',') dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c) # get rid of dummy columns with usage below 10 usage = dummies_hashtags.sum(0) high_usage = dummies_hashtags[np.where(usage >= 10)[0]] low_usage = dummies_hashtags[np.where(usage < 10)[0]] dummies_hashtags = high_usage dummies_hashtags['other_hashtags'] = low_usage.sum(1)

1条回答

网友
1楼 · 发布于 2024-04-25 15:23:58

使用numpy和布尔切片可以加快速度。。让我知道这是否适合你。你知道吗
duh = df.hashtags.str.get_dummies(',') v = duh.values m = v.sum(0) > 1 # filter out occurrences of 1. change for your needs d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m]) df.join(d2) user hashtags a c 0 u1 a,b 1 0 1 u2 a,c 1 1 2 u3 c 0 1

编程相关推荐

java如何正确使用JdbcTemplate。用钥匙夹更新？
java如何仅在XML的根元素上声明名称空间
使用Selenium和Java可以实现多少拖放功能
java如何从一棵树构造一棵树而无需递归
java My bubble排序似乎运行了太多次，或者是向后运行
创建bean时发生java错误：没有符合条件的bean，需要一个匹配的bean，但找到了3个
java 安卓 6.0生成错误：找不到包
java从列表中创建具有多个对象类型的arraylist<object[]>
安卓重写sendevent。c从c到Java
java为什么不支持流。最大接受整数。作为输入参数进行比较？

相关问题更多 >

编程相关推荐

热门问题

热门文章